Está en la página 1de 20

Redes Bayesianas e Inteligencia

Artificial: Aplicaciones en Educacin

Informacin Bsica
Profesor: Fernando Prez Nava
Telfono: 922845048
e-mail:
fdoperez@ull.es
Despacho:Edif de la ETSII. Segunda Planta

Algunas Referencias Bibliogrficas:

Inteligencia Artificial y Educacin


Programa de Doctorado de Fsica e Informtica
Universidad de La Laguna

Espaol:

S. Russel y P. Norvig, Inteligencia Artificial. Un enfoque moderno, 2002, Prentice-Hall. Cap 14-17
N. J. Nilsson, Inteligencia Artificial. Una nueva sntesis, 2000, McGraw Hill. Cap 19-20
F.J. Dez, Introduccin al Razonamiento Aproximado. Dpto. Inteligencia Artificial, UNED, 2001.
http://ia-serv.dia.uned.es/~fjdiez/libros/razaprox.zip
E. Castillo, J.M. Gutirrez y A.S. Hadi, Sistemas Expertos y Modelos de Redes Probabilsticos,
Monografas de la Academia Espaola de Ingeniera, Madrid, 1998.
http://personales.unican.es/gutierjm/papers/BookCGH.pdf

Ingls:

F.V. Jensen, Bayesian Networks and Influence Diagrams, Aalborg University, 2001
http://www.cs.auc.dk/~fvj/BSS99/book99.ps
H. Bengtsson, Bayesian Networks, Lund Institute of Technology, 1999.
http://www.maths.lth.se/matstat/staff/hb/hbbn99.pdf

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Contenidos

Incertidumbre
En muchos dominios de inters para la I.A es
necesario trabajar con incertidumbre:

1. Introduccin a las Redes Bayesianas.

K.B. Laskey Computational Models for Probabilistic Inference (George Manson Univ.)
http://ite.gmu.edu/~klaskey/CompProb/
N. Friedman Probabilistic Methods in AI (Hebrew University)
http://www.cs.huji.ac.il/~pmai/index.html

Fernando Prez Nava

Cursos:

Modelado
Inferencia
Decisin
Aprendizaje

Falta de conocimiento seguro y claro de algo. (Diccionario


RAE)

Algunas fuentes de incertidumbre


Ignorancia

2. Aplicaciones de Redes Bayesianas en Educacin

Puede que en un determinado campo el conocimiento sea incompleto.


(Medicina)
Aunque se pudiera completar el conocimiento, puede ser necesario tomar
decisiones con informacin incompleta.
En otros campos la ignorancia es irreducible

Sistemas Tutoriales Inteligentes

Vaguedad e Imprecisin
Algunos conceptos son vagos o imprecisos.
Las personas altas, guapas, felices etc.
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Presente en modelos fsicos


Cul ser el resultado del lanzamiento de una moneda?
Presente en la vida real
Es la otra persona sincera?

Razonamiento con Incertidumbre


Objetivo:

El propsito ltimo de un sistema inteligente es


actuar de forma ptima utilizando el
conocimiento del sistema y un conjunto de
percepciones.
Para actuar se necesita decidir que hacer.
Cul es la forma correcta de decidir?

Ser capaz de razonar sin tener todo el conocimiento relevante en


un campo determinado utilizando lo mejor posible el
conocimiento que se tiene.

Implementacin
Es difcil cumplir estos requerimientos utilizando las tcnicas
clsicas de la IA (lgica).
Deben de introducirse modelos para manejar informacin vaga,
incierta, incompleta y contradictoria.
Crucial para un sistema funcione en el mundo real

Cuando se tienen distintas opciones un sistema debe decidirse por aquella


accin que le proporcione el mejor resultado.

Principales Modelos de
Representacin de la Incertidumbre

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Modelos Simblicos

Representacin Numrica de la
Incertidumbre: Probabilidad
La Teora de la Probabilidad (TProb)

Lgicas por Defecto


Lgicas basadas en Modelos Mnimos

Es un rea de las Matemticas que ha sido aplicada a problemas


de razonamiento con incertidumbre
Es una teora elegante, bien entendida y con mucha historia
(formalizaciones a partir de mediados del siglo XVII)
Asigna valores numricos (llamados probabilidades) a las
proposiciones.
Nos dice, dadas las probabilidades de ciertas proposiciones, y
algunas relaciones entre ellas como asignar probabilidades a las
proposiciones relacionadas
Relacin con la Lgica Proposicional:

La asuncin del mundo cerrado


Terminacin de predicados
Circunscripcin

Modelos Numricos
Probabilidad
Redes Bayesianas

Teora de Dempster-Shaffer
Lgica difusa

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

La importancia de los distintos resultados de una accin


La certidumbre de alcanzar esos resultados cuando se realiza la accin.

Fernando Prez Nava

Cuando hay incertidumbre para poder decidir racionalmente se


requiere:

Fernando Prez Nava

La decisin racional:

Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Actuar con Incertidumbre

En la Lgica Proposicional las proposiciones son ciertas o falsas.


Con la Tprob las proposiciones son tambin ciertas o falsas pero se tiene un
grado de creencia en la certeza o falsedad.

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Qu son las Probabilidades?


A pesar de su larga historia los valores numricos
que representan las probabilidad no tiene una
interpretacin nica.
Algunas Interpretaciones:

Los Valores Numricos de la


Probabilidad
Dada una proposicin A, denotaremos por P(A) a
la probabilidad de dicha proposicin.
A=El resultado del lanzamiento de un dado es 2
A=El paciente tiene sarampin
A=Maana saldr el sol

Frecuentista: Es el valor, cuando el nmero de pruebas tiende a


infinito, de la frecuencia de que ocurra algn evento.
Subjetiva: Es un grado de creencia acerca de un evento incierto

Los valores de la Probabilidad satisfacen tres


axiomas:

An as:

AX 1: 0 P(A) 1
AX 2: P( Proposicin Verdadera)=1
AX 3: P(AB)=P(A)+P(B)

Existe un consenso sobre el modelo matemtico que soporta la


Teora

Consecuencias de los axiomas de


Probabilidad

Ley de Probabilidad Total


P(A)=P(AB)+ P(A B)
Es una consecuencia del tercer axioma:

Se conocen todos los posibles resultados

Mutuamente excluyente

En general, si Bi i=1...n es un conjunto completo y mutuamente


excluyente de proposiciones:

No se pueden dar dos resultados distintos simultneamente.

Ejemplos

P(A)=P(AB1)+P(AB2)+...+P(ABn)= P(ABi)
A esta operacin se la llama marginalizacin

Si tiramos una moneda, el resultado es cara o cruz


Completo: solo puede salir cara o cruz
Excluyente: si sale cara no puede salir cruz

Otras consecuencias:

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Completo

AX 3: P(AB)=P(A)+P(B)
Siempre que A y B sean mutuamente exclusivos, es decir (AB)

P(A)=1-P(A)
P( Proposicin Falsa)=0
P(AB)=P(A)+P(B)-P(AB)

Variables Aleatorias
Muchas veces tenemos un evento con un conjunto
de resultados:

La temperatura de un paciente puede estar en un conjunto de intervalos:


=<36.4, 36.5-37.4, 37.5-38.4, 38.5-39.4, >=39.5
Completo: la temperatura est en alguno de los intervalos
Excluyente: la temperatura no puede estar en dos intervalos al mismo tiempo
Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Siempre que A y B sean mutuamente exclusivos, es decir (AB)

Variables Aleatorias
En lugar de tener una proposicin por resultado
se introduce el concepto de Variable aleatoria
Se permiten proposiciones de la forma Variable =
resultado

Distribuciones de Probabilidad
Dada una Variable Aleatoria nos gustara conocer
la probabilidad para cada valor que pueda tomar
Esta descripcin se llama distribucin de
probabilidad (Dprob) de la variable aleatoria y
consiste en listar los valores de probabilidad para
cada valor de la variable
Ejemplo:

Por ejemplo, si M=Resultado de tirar una moneda con valores


posibles cara y cruz se permiten las proposiciones:
M=cara y M=Cruz y podemos hablar de
P(M=cara) y P(M=cruz) que representan la probabilidad de obtener una
cara y una cruz respectivamente

Distribucin de probabilidad de la variable Llueve

Abreviaturas

Falso

0.9

Probabilidades
Fernando Prez Nava

0.1

Ejemplo de distribucin conjunta


Distribucin conjunta de las variables Sabe_Concepto y
Resuelve_Ejercicio P(Sabe_Concepto, Resuelve_Ejercicio):

Podemos estar interesados en estudiar varias


variables en conjunto.
Por ejemplo
P(Sarampin=verdadero Fiebre=verdadero) que es la probabilidad de que
el paciente tenga sarampin y fiebre

Generalmente lo escribiremos como:


P(sarampin fiebre) o P(sarampin, fiebre)

Sabe_Concepto (SC)

Resuelve_Ejercicio (RE)

P(Sabe_Concepto, Resuelve_Ejercicio)

Verdadero

Verdadero

0.76

Verdadero

Falso

0.04

Falso

Verdadero

0.18

Falso

Falso

0.02

Tambin se puede escribir como:

Para ello se necesita asignar probabilidades a


cada posible combinacin de los valores de las
variables.
El listado de todos esos valores se llama la
distribucin conjunta del conjunto de variables

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

P(Llueve)

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Proposiciones ms Complejas

Sabe_Concepto (SC)

Resuelve_Ejercicio (RE)

P(Sabe_Concepto, Resuelve_Ejercicio)

sabe_concepto

resuelve_ejercicio

0.76

sabe_concepto

resuelve_ejercicio

0.04

sabe_concepto

resuelve_ejercicio

0.18

sabe_concepto

resuelve_ejercicio

0.02

Recuerda a la tabla de la verdad lgica excepto que:


Fernando Prez Nava

Valores

Llueve
Verdadero

Describe las probabilidad para cada combinacin de valores de las


variables
Generalmente dichos valores no se pueden calcular a partir de sus
componentes
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Variable

Fernando Prez Nava

Se suele escribir P(M=cara) como P(cara), cuando el contexto lo


permite
Si una variable aleatoria como Sarampin toma nicamente los
valores verdadero o falso se suele escribir P(Sarampin
=verdadero) como P(sarampin) y P(Sarampin =falso) como
P( sarampin)

La Importancia de la Distribucin
Conjunta

Escribiremos P(A|B) para representar la


probabilidad de A dado B. Esta probabilidad se
llama probabilidad condicional.
Lo podemos interpretar como mi grado de
creencia en A cuando todo lo que s es B.

La distribucin conjunta contiene todo lo que se necesita saber


acerca de un conjunto de variables aleatorias.
En particular, la distribucin de cada variable individual se puede
calcular a partir de la distribucin conjunta (y se llama
distribucin marginal)
Ejemplo: Supongamos las variables aleatorias: Sabe_Concepto y
Resuelve_Ejercicio con distribucin conjunta P(Sabe_Concepto,
Resuelve_Ejercicio)
Resuelve_Ejercicio

P(Sabe_Concepto, Resuelve_Ejercicio)

sabe_concepto

resuelve_ejercicio

0.76

sabe_concepto

resuelve_ejercicio

0.04

sabe_concepto

resuelve_ejercicio

0.18

sabe_concepto

resuelve_ejercicio

0.02

Entonces P(sabe_concepto)= P(sabe_concepto resuelve_ejercicio)+


P(sabe_concepto resuelve_ejerciciollueve)=0.76+0.04=0.8.

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Casos favorables
A

Dominio

Nos permite conocer la probabilidad de que se


tomen unos determinados valores por un
conjunto de variables aleatorias cuando se saben
los valores que han tomado otras.

resuelve_ejercicio

0.95

resuelve_ejercicio

0.05

Ejemplo: P(Resuelve_Ejercicio|

P(A|B)=P(AB)/P(B) (Asumiendo P(B)0) o equivalentemente


P(AB)= P(A|B)P(B) (Regla del Producto)
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Razonamiento con Probabilidades: La


Regla de Bayes
P(A|B)= P(B|A) P(A) / P(B)
Es una consecuencia de la regla del
producto:
P(A|B)P(B) = P(A,B) = P(B|A)P(A)

De forma intuitiva:

Sabe_Concepto

P(Resuelve_Ejercicio| Sabe_Concepto)
0.10

resuelve_ejercicio

0.90

Ntese que Resuelve_Ejercicio|Sabe_Concepto y


Resuelve_Ejercicio| Sabe_Concepto son variables aleatorias
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Thomas Bayes

La probabilidad de una hiptesis A dada una evidencia B: P(A|B)


es proporcional a probabilidad de la hiptesis P(A) multiplicada
por el grado en que la hiptesis predice los datos P(B|A)

Sabe_Concepto)

resuelve_ejercicio

Probabilidad Condicional
Representacin grfica

Propuesta en 1763 por el Reverendo T. Bayes

Ejemplo: P(Resuelve_Ejercicio|Sabe_Concepto)
P(Resuelve_Ejercicio|Sabe_Concepto)

Se define como:

Distribucin Condicional

Resuelve_Ejercicio

Casos posibles
A
B
B

Aplicabilidad
Fernando Prez Nava

O de forma alternativa, de los casos en los que se da B, en que


proporcin se da A?

Fernando Prez Nava

Sabe_Concepto

Probabilidad Condicional

Fernando Prez Nava

En muchos problemas dado un conjunto de datos (evidencia) B


tenemos que seleccionar la hiptesis A ms probable mediante
P(A|B)
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Regla de Bayes: Forma General


Forma general de la Regla de Bayes

La Regla de Bayes: Ejemplo


Intentemos resolver un caso real con
probabilidades:

Si se tiene un conjunto de proposiciones {A1, A2,..., Am}


completas y mutuamente excluyente se tiene:
P(Ai|B)=
P(B|Ai) P(Ai)
P(B|A1) P(A1)+... P(B|An) P(Am)

Se pretende determinar si un alumno conoce un concepto en


base a la resolucin de un ejercicio.
En este caso:
Hiptesis (SC): Sabe_Concepto (variable aleatoria con dos valores verdadero y
falso)
Evidencia (RE): Resuelve_Ejercicio (variable aleatoria con dos valores positivo y
negativo)

O lo que es lo mismo, si tiene una variable aleatoria A con


valores a1, a2,..., am

Aplicando la Regla de Bayes:


P(sc|re)= P(re|sc) P(sc) /(P(re|sc)

P(B|ai) P(ai)
P(B|a1) P(a1)+... P(B|an) P(am)

P( sc))=0.95

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

La Regla de Bayes: Ejemplo

Independencia: Una Solucin?


Independencia

Continuamos con el ejemplo:

Decimos que dos proposiciones A1 y A2 son independientes si el


conocimiento de una no cambia la probabilidad de la otra

Y si hay varios ejercicios E1,..., Em?


Supondremos que cada ejercicio RE1, RE2,..., REm es una variable aleatoria
que indica si se resuelve con dos valores: verdadero y falso.

Por ejemplo si
A1=Es rubio , A2=Tiene la piel clara ,A3=Llover maana
A1 y A3 son independientes A1 y A2 no.

Entonces si queremos calcular la probabilidad de que el alumno


sepa el concepto necesitamos calcular:
P(SC| E1,RE2,...,REm)=P(RE1,,...,REm|SC)P(SC)/P(RE1,RE2,...,REm)

Formalmente A1,A2 son independientes si P(A1|A2)=P(A1)


o de forma equivalente: P(A2|A1)=P(A2)
o utilizando la regla del producto P(A1A2)= P(A1) P(A2)

Si al alumno se le hace un conjunto de 7 ejercicios:


Entonces para almacenar la tabla de probabilidad conjunta
P(RE1,RE2,...,REm| SC) se necesitan guardar unos 27 nmeros reales (un
DVD por alumno).
De donde sacamos los nmeros ?
Cmo hacemos los clculos computacionalmente eficientes?

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

sc)

P( sc |re)=0.05

Entonces P(A1 A2 ... An)= P(A1) P(A2)... P(An)


Para especificar la distribucin conjunta de n variables se
necesitan o(n) nmeros en lugar de o(2n)
Fernando Prez Nava

Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

+ P(re|

Al elegir la hiptesis ms probable debemos concluir que si resuelve el


ejercicio sabe el concepto

Fernando Prez Nava

P(ai|B)=

P(sc)

Dos variables aleatorias son independientes si el conocimento


del valor que toma una no cambia la probabilidad de los valores
de la otra: P(A1=c|A2 =d) = P(A1=c)
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Independencia Condicional
Pero...

Independencia Condicional
Finalizamos el ejemplo:

La condicin de independencia es muy restrictiva.


Por ejemplo, los resultados de los ejercicios en la enseanza no
suelen ser independientes.

Y si hay varios ejercicios E1,E2,...,Em?


Como vimos, para calcular la probabilidad de que el alumno sepa el
concepto necesitamos calcular:

Independencia condicional
P(SC| E1,RE2,...,REm)=P(RE1,,...,REm|SC)P(SC)/P(RE1,RE2,...,REm)

Se dice que dos proposiciones A1,A2 son independientes dada


una tercera B si cuando B est presente el conocimiento de una
no influye en la probabilidad de la otra: P(A1|A2,B)=P(A1|B)
o de forma equivalente: P(A2|A1,B)=P(A2|B)
o de forma equivalente: P(A1 A2 |B)= P(A1|B) P(A2|B)

Si los resultado de los ejercicios E1,E2,...,Em son independientes


dado el concepto (aproximacin que suele dar buenos resultados):
P(RE1,,...,REm|SC)=P(RE1|SC) P(RE2|SC) ... P(REm| SC)
El problema a resolver ya es abordable:

Ejemplo:

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Representacin de la
Independencia:Redes Bayesianas

La clave hacer factible la inferencia con


probabilidades es la introduccin explcita de la
independencia entre variables
El modelo ms extendido de representacin de
independencias lo constituye las Redes
Bayesianas.
En este modelo se representa de forma explcita
la dependencia entre variables mediante un grafo
Los nodos del grafo se corresponden con
variables y las dependencias se representan
mediante arcos entre ellas

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Redes Bayesianas:Introduccin
Eliminan algunos de los problemas asociados al
razonamiento probabilstico
Desarrolladas a finales de los 70 (Pearl), se
convirtieron durante los 90 en un esquema
general de representacin de la incertidumbre
Una Red Bayesiana (RB) proporciona una forma
compacta y modular de representar la
distribucin conjunta de varias variables
aleatorias
Una RB consta de:

Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Tenemos o(n) nmeros en lugar de o(2n)

Una parte cualitativa que describe las relaciones entre las


distintas variables
Una parte cuantitativa que describe la fuerza de dichas
relaciones mediante probabilidades condicionadas
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Ahora se tiene: P(A1 A2 ... An |B)=P(A1|B) P(A2|B) ... P(An|B)

Fernando Prez Nava

A1=Tengo congestin nasal A2=Tengo fiebre A3=Tengo gripe


A1 y A2 son dependientes pero son independientes si se conoce A3.

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Redes Bayesianas: Utilizacin

http://news.com.com/2009-1001-984695.html

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Red Bayesiana:Ejemplo

Algunas aplicaciones de RB en empresas


Microsoft
Answer Wizard (Office)
Diagnstico de problemas de usuario (Aladdin)
Home Health en la red de Microsoft (MSN)

Intel
Diagnstico de fallos de procesadores

HP
Diagnstico de problemas de impresora

Nokia
Diagnstico de redes celulares

Nasa
Sistema de ayuda a la decisin en misiones espaciales

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Diagnstico de Problemas de Impresin (Heckerman)


Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Redes Bayesianas en la Prensa


Cnet.com

Fernando Prez Nava

En una RB, la informacin proporcionada por una


o ms variables que se observan (evidencia) se
propaga por la red y actualiza nuestra creencia
acerca de las variables no observadas. A este
proceso se le llama inferencia.
Es posible aprender las probabilidades
condicionales que describen las relaciones entre
las variables a partir de los datos. Incluso es
posible aprender la estructura completa de la red
a partir de datos completos o con algunos de sus
valores desconocidos.
Las RB pueden utilizarse para tomar decisiones
ptimas introduciendo posibles acciones y la
utilidad de sus resultados

Fernando Prez Nava

Redes Bayesianas: Inferencia,


Decisin y Aprendizaje

Fernando Prez Nava

Red Bayesiana:Ejemplo

Diagnstico de Problemas en redes celulares para Nokia (Barco y otros)


Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Redes Bayesianas: Algunas


Herramientas
Norsys

Vista parcial de la red para inferir si el usuario tiene dificultades con Excel (Heckerman)

Qu es un Red Bayesiana (RB)?


Una RB es un grafo dirigido en el que
cada nodo contiene informacin
probabilstica.
Para determinar una RB hace falta:

Programa: Netica
Descarga de: http://www.norsys.com/netica.html

Un conjunto de variables aleatorias que forman los nodos de la


red. Las variables pueden ser discretas o continuas
Un conjunto de enlaces dirigidos (arcos) que conectan parejas
de nodos. Si hay un arco del nodo X al Y se dice que X es el
padre de Y.

Microsoft
MSBNx
Descarga de: http://research.microsoft.com/adapt/MSBNx/

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Vista parcial de la red para inferir si el usuario tiene dificultades

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

El significado intuitivo de un arco desde el nodo X al Y es que X tiene una


influencia directa en Y

Fernando Prez Nava

Fernando Prez Nava

Visin de alto nivel del sistema de RB para Excel

Fernando Prez Nava

Red Bayesiana:Ejemplo

Cada nodo Xi tiene una distribucin de probabilidad condicional:


P(Xi|Padres (Xi)) que mide el efecto de los padres de ese nodo.
El grafo no tiene ciclos dirigidos (y por tanto es un grafo dirigido
acclico o DAG)
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Red Bayesiana: Significado


Los arcos en una RB proporciona una forma de
codificar relaciones de independencia
Estas relaciones se pueden especificar como:

Ejemplos de Independencias
Para la RB del ejemplo:
Terremoto

Robo

R y L son dependientes:
Padre

Xi

L es independiente de sus no-descendientes


T,R,N, dados sus padres A

Ejemplos de Independencias
Para la RB del ejemplo:

Terremoto

Noticia
radio

T y R son dependientes si se
conoce A

Robo

Si suena la alarma y ocurre una de


las causas (terremoto) me creo
menos la otra (alarma)
Si suena la alarma y ocurre una de
las causas (alarma) me creo menos
la otra (terremoto)
A este efecto se le llama eliminacin
de explicaciones

Alarma

Llamada

T y R son independientes:

N es independiente de sus no-descendientes


R,A,L dados sus padres T

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Si oigo en la radio que ha habido un


terremoto ya no es ms probable
que ste haya ocurrido. (ya se sabe
si ha ocurrido o no).
Si suena la alarma ya no se
incrementa la probabilidad de que
haya ocurrido un terremoto ( ya se
sabe si ocurri)

Llamada

Si desconozco si suena la alarma y


ocurre una de las causas (terremoto)
no hay razn para creer menos la
otra (alarma)
Si desconozco si suena la alarma y
ocurre una de las causas (alarma) no
hay razn para creer menos la otra
(terremoto)

Terremoto

Noticia
radio

Robo

Alarma

Llamada
T es independiente de sus no-descendientes
R dados sus padres (ninguno).

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Para la RB del ejemplo:

N y A son independientes si se
conoce T

Alarma

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Ejemplos de Independencias

Si oigo en la radio que ha habido un


terremoto es ms probable que ste
haya ocurrido, lo que hace ms
probable que que suene la alarma.
Si suena la alarma se incrementa la
probabilidad de que haya ocurrido
un terremoto y por tanto de que
oiga la noticia en la radio.

Si hay un robo ya no es ms
probable que suene la alarma ( ya se
sabe si suena o no)
Si recibo una llamada ya no se
incrementa la probabilidad de que
suene la alarma ( ya se sabe si
suena o no)

No descendiente

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

N y A son dependientes:

Noticia
radio

R y L son independientes si se
conoce A

Fernando Prez Nava

Descendiente

Si hay un robo es ms probable


suene la alarma, lo que hace ms
probable que que reciba una
llamada.
Si recibo una llamada se incrementa
la probabilidad de que haya sonado
la alarma y por tanto de que me
hayan robado.

Fernando Prez Nava

Dada una RB con nodos X1, X2,...


Xn. Si Padres(Xi) son los padres
de Xi y NoDescendientes(Xi) los
nodos que no son descendientes
de Xi.
Entonces para cada variable Xi
se tiene que Xi es independiente
de sus No Descendientes dados
sus Padres. Esto lo expresamos
como
Ind(Xi; NoDescendientes(Xi) |
Pa(Xi))

Transmisin de informacin en la red


Un camino del grafo puede estar:
Activo si pasa informacin por el.
Bloqueado: si no pasa
Causa Intermedia Causa Comn
R
T
A
A
N
L
R

Teorema de Factorizacin
Dada la codificacin de independencias de una RB

P( X1 ,..., X n ) = P( X i | Pa( X i ))
i

Nodo con evidencia (observado)

Efecto Comn
T
R
A

L
T

Ejemplo

Teorema de Factorizacin:
P(L,A,N,T,R) =
P(R) P(T) P(N|T) P(A|R,T) P(L|A)

Robo

Terremoto

Noticia
radio

Alarma

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Factorizacin:Consecuencias

Representacin compacta
El nmero de parmetros para describir la funcin de
distribucin conjunta es lineal en el nmero n de variables
aleatorias o(n)
Ntese que el nmero de parmetros requerido en general es de
orden o(2n)
Representacin modular
Aadir una nueva variable no obliga a actualizar todos los
parmetros de la representacin
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Construccin de RB
Un algoritmo de construccin de RB

Se puede describir P utilizando probabilidades


condicionales locales
Si G es un grafo disperso, es decir el nmero de
padres de cada variable est acotado:|Pa(Xi)|
k
con k un nmero pequeo se obtiene:

Elegir un grupo de variables X1,,Xn que describen un dominio


Fijar un orden en X1,,Xn (por ejemplo de las causas a los
efectos)
Mientras haya variables
Elegir la siguiente variable Xi y aadir un nodo para ella
Selecionar Padres(Xi) como el conjunto mnimo de {X1,,Xi-1 }, de forma que
Ind(Xi ; {X1,,Xi-1 } - Pai | Pai )

La red resultante depende del orden:


Orden:T, R, A, L, N
T
R
N
Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Fernando Prez Nava

N
L

Llamada

A
L

Orden: L, N, A, T, R
T
N

R
A
L

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

La eleccin de la ordenacin y la
causalidad

Inferencia en Redes Bayesianas


Inferencia:

La eleccin de la ordenacin puede tener un


impacto drstico en la complejidad de la Red
Bayesiana.

Se pretende hallar la distribucin de probabilidad de


determinadas variables de inters dados los valores de otras
variables que se observan.

Heurstica para construir la RB:

Principales tipos de Inferencia


Diagnstico
R

Prediccin
R

Intercausal
T

Justificacin

De manera formal
La red bayesiana est formada por las variables: { X1, , Xn }
Las variables de inters son XI={ X1, , Xi }
Las variables observadas (con evidencia) son: XO={ Xi+1, , Xj }

Calcular de forma exacta la inferencia solicitada.


La complejidad de resolver de forma exacta el problema general de
inferencia en Redes Bayesianas es NP-duro.
Tipos

Los valores que toman dichas variables (evidencia) son e={ ei+1, , ej }

Para

Para

El problema a resolver es:


Calcular:

redes especficas:
rboles (Pearl), (Complejidad lineal)
Polirboles (Kim, Pearl), (Complejidad lineal)
redes generales
Eliminacin de Variables, rbol de uniones (Lauritzen y Spiegelhalter)

Algoritmos aproximados

P( XI , X O = e )
=
P( X O = e )

P(X1, X2 ,..., Xi , Xi+1 = ei+1, Xi+2 = ei+ 2 ,..., X j = e j )

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Algoritmos de inferencia

Algoritmos exactos

El resto de variables son XR ={ Xj+1, , Xn }

P(Xi+1 = ei+1, Xi+2 = ei+2 ,..., X j = e j )

P(robo|alarma,
terremoto)

Los diversos algoritmos propuestos se pueden


dividir en:

Supondremos que:

P( XI | X O = e ) =

P(llama|robo)

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Inferencia en Redes Bayesianas

Fernando Prez Nava

L
P(robo|llama)

Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Generalmente se puede asumir que los grafos generados a partir


de relaciones causales cumplen las condiciones de
independencia

Fernando Prez Nava

Construir la RB utilizando la ordenacin causal entre las variables

Se basan calcular de forma aproximada la inferencia solicitada simulando la


distribucin de la red bayesiana.
Aproximar una distribucin con una tolerancia dada es tambin NP-duro.
Algunos algoritmos
Muestreo lgico (Henrion)
Ponderacin de la verosimilitud (Fung y Chang)
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Algoritmo de Inferencia por


Eliminacin de Variables

El problema es calcular:

El problema ahora es calcular:

P( XI , X O = e )
P( XI | X O = e ) =
P( X O = e )

P( XI , X O = e ) = P( XI , X O = e, X R ) =
XR

P(X1, X2,..., Xi, Xi+1 = ei+1, Xi+2 = ei+2,..., X j = e j, X j+1, X j+2,..., Xn )

El numerador es igual a:

X j +1,X j + 2 ,..., Xn

P( XI , X O = e ) = P( XI , X O = e, X R ) =

Idea General:

XR

P(X1, X2,..., Xi, Xi+1 = ei+1, Xi+2 = ei+2,..., X j = e j, X j+1, X j+2,..., Xn )

Para realizar de forma eficiente la suma anterior:

X j +1,X j + 2 ,..., Xn

Paso 1
Usar el teorema de factorizacin para factorizar la distribucin conjunta:

El denominador es igual a:

i
Paso 2
Fijar las variables observadas a sus valores de evidencia
Paso 3
Eliminar de forma iterativa del sumatorio las variables que no son de inters
ni de evidencia

XI

P(X1, X2,..., Xi, Xi+1 = ei+1, Xi+2 = ei+2 ,..., X j = e j )


Por tanto, si se tiene el numerador el denominador se puede
calcular a partir de ste.
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

X1,X2 ,..., Xi

Eliminacin de variables: Ejemplo con


evidencia
La red de la Escarcha
Escarcha

P(E)
e

Watson
Accidente

P(W|E)

Holmes
Accidente

0.7
0.3

0.8

0.2

0.1

P(H|E)

0.9

e
E

0.8

0.2

0.1

Escarcha

Watson
Accidente

0.9

0.7
0.3

0.8

0.2

0.1

0.9

Factorizacin:
P(E)P(W|E)P(H|E)

gE(W)
w

Sustitucin de la evidencia

0.7 x 0.8 x 0.8+0.3 x 0.1 x 0.1 = 0.451


0.7 x 0.2 x 0.8+0.3 x 0.9 x 0.1 = 0.139

H
h

0.8

0.2

0.1

0.9

gH(E)
E

gH (E) = P(H | E)

Eliminamos H

P(E)P(W|E)P(h|E)

0.8 + 0.2 = 1.0

0.1 + 0.9 = 1.0

P(E)P(W|E)gH(E)

gE (W) = P(E)P(W | E)P(h | E)


E

Normalizamos
w

0.77

0.23

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Eliminamos E

P(W,h)
P(W|h)

Holmes
Accidente

P(H|E)

Calculemos P(W)

Factorizacin:
P(E)P(W|E)P(H|E)

Normalizamos

P(W|E)

P(E)
e

Calculemos P(w|h)

Eliminamos E

Eliminacin de variables: Ejemplo sin


evidencia
La red de la Escarcha

H
h

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

P(X1, X 2 ,..., Xi , Xi+1, Xi+2 ,..., X j , X j+1, X j+ 2 ,..., Xn ) = P(Xi , pa(Xi ))

P( X O = e ) = P( XI , X O = e ) =

Eliminacin de Variables: Clculo del


numerador

gE (W) = gH (E)P(E)P(W | E)
E

P(W)

1.0 x 0.7 x 0.8+1.0 x 0.3 x 0.1 = 0.59

1.0 x 0.7 x 0.2+1.0 x 0.3 x 0.9 = 0.41

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Un Ejemplo ms Complejo
La Red Asia

Eliminacin de variables:
Ejemplo con evidencia

T
A

Ejemplo: calcular P(C|v,f,d)


Visita a
asia

B
D

Como siempre calculamos P(C,v,f,d) y normalizamos


Escribimos la factorizacin:

Fumador

P( V)P(F)P( T | V)P(C | F)P(B | F)P( A | T , C)P(R | A)P(D | A , B)


y sustituimos la evidencia V=cierto,F=cierto,D=cierto
Tuberculosis

P( v )P(f )P( T | v)P(C | f )P(B | f )P( A | T , C)P(R | A)P(d | A , B)

Cancer Pulmn

Anormalidad
en pecho

tenemos por tanto que eliminar:R,T,A,B (puesto que V,F,D estn


fijos)
Proceso de eliminacin:

Bronquitis

P( v )P(f )P( T | v )P(C | f )P(B | f )P( A | T , C)P(R | A)P(d | A , B)


hR (A, C) = P(R | A)

Eliminamos R

*Disnea=Dificultad para respirar


Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Eliminacin de variables:
Ejemplo con evidencia

V
C

T
A

Proceso de eliminacin: continuacin

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Eliminacin de variables:
Ejemplo sin evidencia

P( v)P(f )P( T | v)P(C | f )P(B | f )P( A | T , C)P(R | A)P(d | A , B)


P( v )P(f )hR ( A)P( T | v)P(C | f )P(B | f )P( A | T , C)P(d | A , B)

T
A
R

Eliminaremos: V,F,R,T,C,A,B
Aplicando el teorema de factorizacin:

Eliminando: T,A,B

Ejemplo: Calcular P(D)

B
D

P( V)P(F)P( T | V)P(C | F)P(B | F)P( A | T , C)P(R | A)P(D | A , B)


Eliminamos V

hV ( T) = P( T | V)P(V)
V

hT (A, C) = P( T | v)P(A | T, C)

Eliminamos T

h V ( T )P(F)P(C | F)P(B | F)P( A | T , C)P(R | A)P(D | A , B)

P( v)P(f )hR ( A)h T ( A , C)P(C | f )P(B | f )P(d | A , B)

h V ( T )hF (C, B)P( A | T , C)P(R | A)P(D | A , B)

hA (C, B) = hr (A)ht (A, C)P(d | A, B)


A

Eliminamos R

P( v)P(f )hA (C, B)P(C | f )P(B | f )

hR (A) = P(R | A)
A

h V ( T )hF (C, B)hR ( A)P( A | T , C)P(D | A , B)

hb (C) = hB (C, B)P(B | f )

Eliminamos B

P( v)P(f )P(C | f )hB (C)

hF (C, B) = P(C | F)P(B | F)P(F)

Normalizacin

P(C | v , f , d)

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Eliminamos T

hT (A, C) = hv ( T)P(A | T, C)
T

h T ( A , C)hF (C, B)hR ( A)P(D | A , B)


Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Eliminamos A

Eliminamos F

Fernando Prez Nava

P( v)P(f )hR ( A)P( T | v )P(C | f )P(B | f )P( A | T , C)P(d | A , B)

Fernando Prez Nava

Rayos X

Fernando Prez Nava

Disnea*

Eliminacin de variables:
Ejemplo con evidencia

V
A

Ejemplo: Calcular P(D)


R

Eliminaremos V,F,R,T,C,A,B
Proceso de eliminacin (continuacin)

Estudiemos la complejidad:

En cada paso se calcula:


m

hX (Y1,KYk ) = h'X (X,Y1,KYk ),

P( V)P(F)P( T | V)P(C | F)P(B | F)P( A | T , C)P(R | A)P(D | A , B)

Por tanto: la complejidad es exponencial en el nmero de


variables de los factores intermedios
Es necesario buscar buenos ordenes de eliminacin de
variables para reducir el tamao de los factores intermedios.
Sin embargo, el problema de buscar la ordenacin ptima tiene
tambin complejidad exponencial, por lo que se emplean
diversas heursticas.

hC (A, B) = hT (A, C)hF (C, B)

Eliminamos C

hA (D, B) = hC (A, B)hR (A)P(D | A, B)

P(D) = hA (B, D)

Eliminamos B

P(D)

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

h A (D, B)

Decisin con Redes Bayesianas


Decisin:

Es la combinacin de dos elementos bsicos: la teora de la


probabilidad y la teora de la utilidad.
La teora de la utilidad

Ejemplo:
Quiero para hacer una fiesta en el jardn de mi casa pero puede que
llueva debera hacer la fiesta dentro de casa?
En el problema aparecen:

Establece una estructura de preferencias racional sobre los resultados de


nuestras acciones basada en un conjunto de axiomas (Savage)
Afirma que bajo esos axiomas es posible encontrar una funcin de utilidad U
que asigna un valor numrico a la utilidad de cada resultado que cumple:

Dos posibles acciones: preparar la fiesta dentro o prepararla fuera.


Cuatro posibles resultados: la fiesta se hace dentro o la fiesta se hace fuera con lluvia o
sin lluvia
Una distribucin de probabilidad sobre los resultados (no s si llover o no)
Un conjunto de preferencias sobre los resultados: prefiero hacer la fiesta fuera sin lluvia

Si el resultado A se prefiere al B entonces U(A)U(B)


Si A y B son indiferentes entonces U(A)=U(B)
Si se dan varios posibles resultados A1, A2,..., An con probabilidades p1, p2,..., pn
la utilidad del resultado conjunto es U([p1, A1; p2, A2;... pn, An])=p1U(A1)+... pnU(An)

Lugar
lluvioso
lluvioso

Aliviado

Deprimido

Arrepentido

Contento

Preferencias sobre los resultados

Cmo tomar entonces la decisin ptima?


Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Ejemplo de funcin de utilidad


U(Tiempo, Lugar)
Fernando Prez Nava

Tiempo

fuera

Teora de la Decisin
La teora de la decisin bajo incertidumbre:

En el tema anterior se present como razonar en presencia de


incertidumbre. Veremos ahora como tomar decisiones (actuar) bajo
incertidumbre

dentro

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Para cada valor de Y1, Y2,..Yk hacemos |Val(X)| sumas, por tanto el nmero
total de sumas es |Val(X)||Val(Y1)|... |Val(Yk)|
Para cada valor de X,Y1, Y2,..Yk hacemos m multiplicaciones, por tanto el
nmero total de de multiplicaciones es de m |Val(X)| |Val(Y1)|...|Val(Yk)|

h V ( T )hF (C, B)hR ( A)P( A | T , C)P(D | A , B)


h T ( A , C)hF (C, B)hR ( A)P(D | A , B)

i=1

Entonces:

h V ( T )hF (C, B)P( A | T , C)P(R | A)P(D | A , B)

Eliminamos A

h'X (X,Y1,KYk ) = fi (X,Yi1,KYili )

h V ( T )P(F)P(C | F)P(B | F)P( A | T , C)P(R | A)P(D | A , B)

hC ( A , B)hR ( A)P(D | A , B)

Complejidad del Algoritmo de


Eliminacin

Lugar

dentro
Tiempo

fuera

lluvioso

Aliviado

(60)

lluvioso

Arrepentido (50)

Deprimido (0)
Contento

(100)

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

El Principio de la Mxima Utilidad


Esperada (MUE)

El Principio de la Mxima Utilidad


Esperada (MUE): Ejemplo
Ejemplo:

El principio de la MUE es un principio fundamental


en Inteligencia Artificial.
Establece que:

En el caso de la fiesta las acciones son:


A1=preparar fiesta dentro, A2=preparar fiesta fuera

Los resultados son:


Res1(A1)= (lluvioso,dentro), Res2(A1)= (lluvioso,dentro)
Res1(A2)= (lluvioso,fuera), Res2(A2)= (lluvioso,fuera)

La forma racional de decidir para un agente es elegir aquella


accin cuyo resultado le sea sea ms til (ms preferido).
Entonces dada una accin A con:

La funcin de utilidad es:


U(Tiempo,Lugar)

Posibles resultados: {Resultado1(A),Resultado2(A),... Resultadon(A)}


Probabilidades de obtener dichos resultados si se tiene la evidencia E:
P(Resultado1(A)|Hacer(A),E),..., P(Resultadon(A)|Hacer(A),E)

Tiempo

i=1

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Redes de Decisin (Diagramas de


influencia)

Construccin

Costo

(100)

P(Res1(A1)|Hacer(A1))=P(lluvioso,dentro)/P(dentro)=P(lluvioso)
P(Res2(A1)|Hacer(A1))=P(lluvioso)
P(Res1(A2)|Hacer(A2))=P(lluvioso)
P(Res2(A2)|Hacer(A2))=P(lluvioso)

P(T)
T

lluvioso

0.4

lluvioso

0.6

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Aprendizaje

Por qu realizar aprendizaje en sistemas


basados en conocimiento?
El proceso de adquisicin del conocimiento es muy caro
Frecuentemente no se tienen expertos disponibles
Por el contrario generalmente es posible disponer de grandes
cantidades de datos.

Lugar de la Fiesta

Ruido

Contento

Cualquier cambio en un sistema que le permita obtener un


mejor rendimiento la segunda vez que realiza la misma tarea u
otra tarea similar (Simon)

Ubicacin del
Aeropuerto

Daos Medio
Ambiente

Arrepentido (50)

Aprendizaje:

Nodos aleatorios (valos): Representan variables aleatorias de


la misma forma que las redes de creencia.
Nodos de decisin (rectngulos): Representan puntos para los
cuales puede decidirse que accin emprender
Nodos de utilidad (rombos): Representan la funcin de utilidad.

El Aprendizaje nos permite disear sistemas


basados en datos
U

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

U
Tiempo
Meteorolgico

lluvioso

Deprimido (0)

U(dentro)=U(lluvioso,dentro)P(lluvioso,dentro|dentro)+U(lluvioso,dentro)P(lluvioso,d
ento|dentro)= 60*0.4+50*0.6=54
U(fuera)=U(lluvioso,fuera)P(lluvioso,fuera|fuera)+U(lluvioso,fuera)P(lluvioso,fuera|fu
era)= 0*0.4+100*0.6=60 (decisin ptima)

Una red de decisin define un escenario con una


sucesin de observaciones y decisiones
Una red de decisin est compuesta de:

Muertes

(60)

Las utilidades son:

Fernando Prez Nava

Esto es, es la suma de la utilidad de cada resultado multiplicado por la


probabilidad de obtenerlo.

Trfico Areo

Aliviado

Fernando Prez Nava

U(A | E) = P(Resultad o i (A) | Hacer(A), E)U(Result ado i (A))

Ejemplos

fuera

lluvioso

Las probabilidades son:

ser ptima si hace mxima la utilidad esperada:

Lugar

dentro

Adems estos datos pueden combinarse con las opiniones de


distintos expertos
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Aprendizaje en Redes Bayesianas

En este caso:

Proceso de Aprendizaje General

La estructura de la red es conocida.


El Proceso de Aprendizaje nos proporciona los parmetros que
describen las tablas de probabilidad condicional

Inferir la estructura y tablas de probabilidad condicional a partir


de datos e informacin a priori

Datos +
Informacin A Priori

Casos

T, R, A
< t, r, a>
.
.
.
<t, r, a>

P(A|R,T)

A
L

El Problema del Aprendizaje en Redes Bayesianas

Datos completos

Estimacin Paramtrica

Optimizacin sobre
T
estructuras

Datos Incompletos

Optimizacin Paramtrica

Tcnicas Combinadas

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Aprendizaje de Redes Bayesianas en


Netica
Slo resuelve los casos de Estructura Conocida
Estimacin de los parmetros (Datos Completos)

Ejemplo:
T

R
A

R
r

P(A|R,T)
0.99

0.01

0.2

0.8

0.8

0.2

0.01

0.99

20

980

Casos

T, R, A
< t, r, a>
.
< t, r, a>
.
<t, r, a>

P(A|R,T)

0.99

0.2

0.8

0.81

0.19

0.01

0.99

21

980

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

T
T

R
A

P(A|R,T)

0.99

0.01

0.2

0.8

0.8

0.2

0.01

0.99

Aplicaciones de Redes Bayesianas en


Educacin
Por qu construirlos?
Idealmente permiten un profesor por alumno y por tanto se
tiene un profesor que se adapta:
A las caractersticas personales del alumno
A su ritmo de aprendizaje
A sus horarios

Sin embargo...
La capacidad actual de procesamiento del lenguaje natural no permite
conversar de forma normal con un STI
Siempre habr estudiantes para los que la enseanza por ordenador no sea
adecuada

0.01

Son sistemas informticos para la enseanza de estudiantes.

p=(pe+1)/(e+1) (si el estado del nodo coincide con el valor del


caso para ese nodo)
p=(pe)/(e+1)
(si no coincide con el valor)
T

P(A|R,T)

Sistemas Tutoriales Inteligentes (STI)

Dado un caso que proporciona valores para un nodo y sus


padres, la nueva probabilidad condicional p y el nuevo nmero
de casos de los padres e se actualizan para esos valores en
funcin de los anteriores p y e como:
e=e+1

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Objetivo actual:
Fernando Prez Nava

Aprendizaje
R

Estructura Desconocida

Fernando Prez Nava

Estructura Conocida

Fernando Prez Nava

T
Proceso
De
Aprendizaje

Aprendizaje en RB: Datos Completos


y Estructura Conocida (DC/EC)

Construir sistemas informticos para ayudar al profesor, en


clase, en el lugar de trabajo o en casa.
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Arquitectura de un STI
Experto en el
Dominio

Conocimiento del
Dominio

Incertidumbre en el modelado del estudiante


Conocimiento
Pedaggico

Mdulo
Pedaggico

Modelado del
Estudiante

En los datos

Experto en el dominio
Representacin del Conocimiento
del dominio a ensear

Interface

El STI debe construir el modelo del estudiante a partir de un conjunto de


datos muy limitado. (Generalmente limitados a respuestas del teclado y
ratn)

Modelos del
Estudiante

En la inferencia

Modelado del estudiante


Representacin del estudiante que usa el STI.
Es el mdulo de mayor importancia

Las reglas para la construccin del modelo del estudiante a partir de datos
suelen ser heursticas (y por tanto subptimas).
Estudiante

En la seleccin de acciones

Modelos del estudiante

La incertidumbre en el modelo del estudiante se traslada a la seleccin de la


accin pedaggica ms adecuada.

Almacenamiento de los distintos modelos de estudiantes que usan el


sistema

Observacin

Mdulo Pedaggico
Subsistema que toma las decisiones acerca de cmo ensear el dominio
basado en el Conocimiento pedaggico.
Mdulo de comunicacin del STI con el estudiante
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

STI con Redes Bayesianas


Basadas en la idea de restringir los tipos de modelos permitidos y ajustar el
conocimiento del dominio a dichos modelos. Estas restricciones se eligen
generalmente de forma que se optimice algn aspecto de la eficiencia como por
ejemplo el tiempo de realizar inferencias sobre la red.
Ejemplos:
(Reye, 1998)
(Murray, 1998)
(Collins y otros, 1996)
(Mayo y Mitrovic, 2000)
Ventajas
Eficiencia
Los modelos utilizados permiten modelar la adquisicin del conocimiento
por parte del alumno a travs del tiempo.
Inconvenientes
La bsqueda de la eficiencia puede introducir simplificaciones incorrectas
acerca del dominio.

Las propuestas se pueden dividir en tres grupos:


Centradas en expertos

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Centradas en la eficiencia

Modelado del estudiante con Redes Bayesianas


Basadas en utilizar expertos que especifican de manera general y de forma
directa o indirecta la estructura completa y las tablas de probabilidad condicional
del modelo del estudiante
Ejemplos:
ANDES (Gertner & Van Lehn 2000) http://www.andes.pitt.edu/
HYDRIVE (Miselvy & Gitomer, 1996)
DT- Tutor (Murry & VanLenh, 2000)
ADELE (Ganeshan y otros 2000)
Ventajas
La utilizacin de expertos proporciona modelos de gran calidad
Principal inconveniente:
Los modelos resultantes de las propuestas de los expertos incluyen tantas
variables que puede ser infactible trabajar con la red bayesiana en tiempo
real.

Modelo del estudiante

Incertidumbre en la
seleccin de acciones

STI con Redes Bayesianas

Fernando Prez Nava

Fernando Prez Nava

Interface

Acciones pedaggicas

Incertidumbre en los datos


e inferencia

Fernando Prez Nava

Elementos de la
arquitectura

Incertidumbre en los STI

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

STI con Redes Bayesianas


Centradas en los datos

Seleccin de acciones pedaggicas


Una vez obtenido el modelo del estudiante, ste
debe usarse para elegir la accin pedaggica
ptima

Basadas en la idea de aprender tanto la estructura como las probabilidades


condicionales de la red del trabajo en tiempo real del tutor.
Ejemplos:
MANIC (Stern y otros, 1999)
CAPIT (Mayo y Mitrovic, 2001)
Ventajas
Tienden a ser ms simples al estar basados en variables observadas
Permiten evaluar la calidad del modelo
Los modelos utilizados permiten modelar la adquisicin del conocimiento
por parte del alumno a travs del tiempo.
Inconvenientes
Requieren grandes cantidades de datos

Tipos de estrategias
Heursticas
Utilizan la salida del proceso de inferencia como entrada a una regla de seleccin
heurstica
Ejemplos
ANDES, ADELE

Diagnstico
Seleccionan la accin que maximizan la certidumbre de que el estudiante ha
adquirido los conceptos del dominio
Ejemplos
(Collins y otros, 1996)

Ejemplo del Modelo del Alumno:


Parte Cualitativa

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Ejemplo del Modelo del Alumno:


Parte Cuantitativa (1)
Tablas de Probabilidad Conceptos-Ejercicios

Sabe la Asignatura
C1

T1

C11

P1

P2

Ts

C1n1

P3

Cs1

Sabe el Tema

Csns

Pm

Resuelve
la Prueba

Sabe el
Concepto

Cn

Resuelve
la Prueba

Sabe el
Concepto

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

C2

Cuando un ejercicio depende de varios conceptos la tabla de


probabilidad condicional puede ser muy grande.
Generalmente los conceptos no son independientes, pero se
puede asumir que la capacidad de aplicarlos cada concepto
correctamente cuando se sabe si es independiente. Entonces se
introduce la red:
C1

C2

Cn

Sabe el
Concepto

A1

A2

An

Sabe Aplicarlo

Resuelve
la Prueba

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Fernando Prez Nava

Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Seleccionan la accin que maximiza su utilidad esperada


Ejemplos
CAPIT, DT-Tutor

Fernando Prez Nava

Teora de la decisin

Ejemplo del Modelo del Alumno:


Parte Cuantitativa (2)

Llamaremos:

Parmetro pi =1- si /(1- gi )


Parmetro leak=(1- gi )

P(Ai=0|Ci=1)=di a la probabilidad de descuido, el alumno sabe


el concepto, pero se equivoc al aplicarlo.
P(Ai=1|Ci=0)=si a la probabilidad de suerte, el alumno no
sabe el concepto, pero acert al aplicarlo.

Noisy And en el programa Netica:


Parmetro pi =1- gi /(1- si )
Parmetro lnh=1-(1- si )

Entonces:
Cuando para resolver un ejercicio es necesario conocer todos los
conceptos aparece el modelo de probabilidades condicionales
Noisy AND.
Cuando para resolver un ejercicio es necesario conocer algn
concepto aparece el modelo de probabilidades condicionales
Noisy OR.

Las relaciones entre Conceptos, Temas y


Asignaturas se modelan de forma similar

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Fernando Prez Nava

Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna

Ejemplo del Modelo del Alumno:


Parte Cuantitativa (3)
Noisy Or en el programa Netica:

Fernando Prez Nava

También podría gustarte