RedesBayesianas Educa

Redes Bayesianas e Inteligencia
Artificial: Aplicaciones en Educacin
Informacin Bsica
Profesor: Fernando Prez Nava
Telfono: 922845048
e-mail:
fdoperez@ull.es
Despacho:Edif de la ETSII. Segunda Planta
Algunas Referencias Bibliogrficas:
Inteligencia Artificial y Educacin

Programa de Doctorado de Fsica e Informtica
Universidad de La Laguna
Espaol:
S. Russel y P. Norvig, Inteligencia Artificial. Un enfoque moderno, 2002, Prentice-Hall. Cap 14-17
N. J. Nilsson, Inteligencia Artificial. Una nueva sntesis, 2000, McGraw Hill. Cap 19-20
F.J. Dez, Introduccin al Razonamiento Aproximado. Dpto. Inteligencia Artificial, UNED, 2001.
http://ia-serv.dia.uned.es/~fjdiez/libros/razaprox.zip
E. Castillo, J.M. Gutirrez y A.S. Hadi, Sistemas Expertos y Modelos de Redes Probabilsticos,
Monografas de la Academia Espaola de Ingeniera, Madrid, 1998.
http://personales.unican.es/gutierjm/papers/BookCGH.pdf
Ingls:
F.V. Jensen, Bayesian Networks and Influence Diagrams, Aalborg University, 2001
http://www.cs.auc.dk/~fvj/BSS99/book99.ps
H. Bengtsson, Bayesian Networks, Lund Institute of Technology, 1999.
http://www.maths.lth.se/matstat/staff/hb/hbbn99.pdf
Programa de Doctorado de Fsica e Informtica. Bienio 04-06. Dept. Estadstica, I.O. y Computacin. Universidad de la Laguna
Fernando Prez Nava
Contenidos
Incertidumbre
En muchos dominios de inters para la I.A es
necesario trabajar con incertidumbre:
1. Introduccin a las Redes Bayesianas.
K.B. Laskey Computational Models for Probabilistic Inference (George Manson Univ.)
http://ite.gmu.edu/~klaskey/CompProb/
N. Friedman Probabilistic Methods in AI (Hebrew University)
http://www.cs.huji.ac.il/~pmai/index.html
Fernando Prez Nava
Cursos:
Modelado
Inferencia
Decisin
Aprendizaje
Falta de conocimiento seguro y claro de algo. (Diccionario

RAE)
Algunas fuentes de incertidumbre

Ignorancia
2. Aplicaciones de Redes Bayesianas en Educacin
Puede que en un determinado campo el conocimiento sea incompleto.

(Medicina)
Aunque se pudiera completar el conocimiento, puede ser necesario tomar
decisiones con informacin incompleta.
En otros campos la ignorancia es irreducible
Sistemas Tutoriales Inteligentes
Vaguedad e Imprecisin
Algunos conceptos son vagos o imprecisos.
Las personas altas, guapas, felices etc.
Fernando Prez Nava
Fernando Prez Nava
Presente en modelos fsicos

Cul ser el resultado del lanzamiento de una moneda?
Presente en la vida real
Es la otra persona sincera?
Razonamiento con Incertidumbre

Objetivo:
El propsito ltimo de un sistema inteligente es

actuar de forma ptima utilizando el
conocimiento del sistema y un conjunto de
percepciones.
Para actuar se necesita decidir que hacer.
Cul es la forma correcta de decidir?
Ser capaz de razonar sin tener todo el conocimiento relevante en

un campo determinado utilizando lo mejor posible el
conocimiento que se tiene.
Implementacin
Es difcil cumplir estos requerimientos utilizando las tcnicas
clsicas de la IA (lgica).
Deben de introducirse modelos para manejar informacin vaga,
incierta, incompleta y contradictoria.
Crucial para un sistema funcione en el mundo real
Cuando se tienen distintas opciones un sistema debe decidirse por aquella

accin que le proporcione el mejor resultado.
Principales Modelos de
Representacin de la Incertidumbre
Modelos Simblicos
Representacin Numrica de la
Incertidumbre: Probabilidad
La Teora de la Probabilidad (TProb)
Lgicas por Defecto

Lgicas basadas en Modelos Mnimos
Es un rea de las Matemticas que ha sido aplicada a problemas

de razonamiento con incertidumbre
Es una teora elegante, bien entendida y con mucha historia
(formalizaciones a partir de mediados del siglo XVII)
Asigna valores numricos (llamados probabilidades) a las
proposiciones.
Nos dice, dadas las probabilidades de ciertas proposiciones, y
algunas relaciones entre ellas como asignar probabilidades a las
proposiciones relacionadas
Relacin con la Lgica Proposicional:
La asuncin del mundo cerrado

Terminacin de predicados
Circunscripcin
Modelos Numricos
Probabilidad
Redes Bayesianas
Teora de Dempster-Shaffer
Lgica difusa
La importancia de los distintos resultados de una accin

La certidumbre de alcanzar esos resultados cuando se realiza la accin.
Fernando Prez Nava
Cuando hay incertidumbre para poder decidir racionalmente se

requiere:
Fernando Prez Nava
La decisin racional:
Fernando Prez Nava
Actuar con Incertidumbre
En la Lgica Proposicional las proposiciones son ciertas o falsas.

Con la Tprob las proposiciones son tambin ciertas o falsas pero se tiene un
grado de creencia en la certeza o falsedad.
Fernando Prez Nava
Qu son las Probabilidades?

A pesar de su larga historia los valores numricos
que representan las probabilidad no tiene una
interpretacin nica.
Algunas Interpretaciones:
Los Valores Numricos de la

Probabilidad
Dada una proposicin A, denotaremos por P(A) a
la probabilidad de dicha proposicin.
A=El resultado del lanzamiento de un dado es 2
A=El paciente tiene sarampin
A=Maana saldr el sol
Frecuentista: Es el valor, cuando el nmero de pruebas tiende a

infinito, de la frecuencia de que ocurra algn evento.
Subjetiva: Es un grado de creencia acerca de un evento incierto
Los valores de la Probabilidad satisfacen tres

axiomas:
An as:
AX 1: 0 P(A) 1
AX 2: P( Proposicin Verdadera)=1
AX 3: P(AB)=P(A)+P(B)
Existe un consenso sobre el modelo matemtico que soporta la

Teora
Consecuencias de los axiomas de

Probabilidad
Ley de Probabilidad Total

P(A)=P(AB)+ P(A B)
Es una consecuencia del tercer axioma:
Se conocen todos los posibles resultados
Mutuamente excluyente
En general, si Bi i=1...n es un conjunto completo y mutuamente

excluyente de proposiciones:
No se pueden dar dos resultados distintos simultneamente.
Ejemplos
P(A)=P(AB1)+P(AB2)+...+P(ABn)= P(ABi)
A esta operacin se la llama marginalizacin
Si tiramos una moneda, el resultado es cara o cruz

Completo: solo puede salir cara o cruz
Excluyente: si sale cara no puede salir cruz
Otras consecuencias:
Fernando Prez Nava
Completo
AX 3: P(AB)=P(A)+P(B)
Siempre que A y B sean mutuamente exclusivos, es decir (AB)
P(A)=1-P(A)
P( Proposicin Falsa)=0
P(AB)=P(A)+P(B)-P(AB)
Variables Aleatorias
Muchas veces tenemos un evento con un conjunto
de resultados:
La temperatura de un paciente puede estar en un conjunto de intervalos:

=<36.4, 36.5-37.4, 37.5-38.4, 38.5-39.4, >=39.5
Completo: la temperatura est en alguno de los intervalos
Excluyente: la temperatura no puede estar en dos intervalos al mismo tiempo
Fernando Prez Nava
Fernando Prez Nava
Fernando Prez Nava
Siempre que A y B sean mutuamente exclusivos, es decir (AB)
Variables Aleatorias
En lugar de tener una proposicin por resultado
se introduce el concepto de Variable aleatoria
Se permiten proposiciones de la forma Variable =
resultado
Distribuciones de Probabilidad
Dada una Variable Aleatoria nos gustara conocer
la probabilidad para cada valor que pueda tomar
Esta descripcin se llama distribucin de
probabilidad (Dprob) de la variable aleatoria y
consiste en listar los valores de probabilidad para
cada valor de la variable
Ejemplo:
Por ejemplo, si M=Resultado de tirar una moneda con valores

posibles cara y cruz se permiten las proposiciones:
M=cara y M=Cruz y podemos hablar de
P(M=cara) y P(M=cruz) que representan la probabilidad de obtener una
cara y una cruz respectivamente
Distribucin de probabilidad de la variable Llueve
Abreviaturas
Falso
0.9
Probabilidades
Fernando Prez Nava
0.1
Ejemplo de distribucin conjunta

Distribucin conjunta de las variables Sabe_Concepto y
Resuelve_Ejercicio P(Sabe_Concepto, Resuelve_Ejercicio):
Podemos estar interesados en estudiar varias

variables en conjunto.
Por ejemplo
P(Sarampin=verdadero Fiebre=verdadero) que es la probabilidad de que
el paciente tenga sarampin y fiebre
Generalmente lo escribiremos como:

P(sarampin fiebre) o P(sarampin, fiebre)
Sabe_Concepto (SC)
Resuelve_Ejercicio (RE)
P(Sabe_Concepto, Resuelve_Ejercicio)
Verdadero
Verdadero
0.76
Verdadero
Falso
0.04
Falso
Verdadero
0.18
Falso
Falso
0.02
Tambin se puede escribir como:
Para ello se necesita asignar probabilidades a

cada posible combinacin de los valores de las
variables.
El listado de todos esos valores se llama la
distribucin conjunta del conjunto de variables
P(Llueve)
Proposiciones ms Complejas
Sabe_Concepto (SC)
Resuelve_Ejercicio (RE)
sabe_concepto
resuelve_ejercicio
0.76
sabe_concepto
resuelve_ejercicio
0.04
sabe_concepto
resuelve_ejercicio
0.18
sabe_concepto
resuelve_ejercicio
0.02
Recuerda a la tabla de la verdad lgica excepto que:

Fernando Prez Nava
Valores
Llueve
Verdadero
Describe las probabilidad para cada combinacin de valores de las

variables
Generalmente dichos valores no se pueden calcular a partir de sus
componentes
Fernando Prez Nava
Variable
Fernando Prez Nava
Se suele escribir P(M=cara) como P(cara), cuando el contexto lo

permite
Si una variable aleatoria como Sarampin toma nicamente los
valores verdadero o falso se suele escribir P(Sarampin
=verdadero) como P(sarampin) y P(Sarampin =falso) como
P( sarampin)
La Importancia de la Distribucin
Conjunta
Escribiremos P(A|B) para representar la

probabilidad de A dado B. Esta probabilidad se
llama probabilidad condicional.
Lo podemos interpretar como mi grado de
creencia en A cuando todo lo que s es B.
La distribucin conjunta contiene todo lo que se necesita saber

acerca de un conjunto de variables aleatorias.
En particular, la distribucin de cada variable individual se puede
calcular a partir de la distribucin conjunta (y se llama
distribucin marginal)
Ejemplo: Supongamos las variables aleatorias: Sabe_Concepto y
Resuelve_Ejercicio con distribucin conjunta P(Sabe_Concepto,
Resuelve_Ejercicio)
Resuelve_Ejercicio
sabe_concepto
resuelve_ejercicio
0.76
sabe_concepto
resuelve_ejercicio
0.04
sabe_concepto
resuelve_ejercicio
0.18
sabe_concepto
resuelve_ejercicio
0.02
Entonces P(sabe_concepto)= P(sabe_concepto resuelve_ejercicio)+

P(sabe_concepto resuelve_ejerciciollueve)=0.76+0.04=0.8.
Casos favorables
A
Dominio
Nos permite conocer la probabilidad de que se

tomen unos determinados valores por un
conjunto de variables aleatorias cuando se saben
los valores que han tomado otras.
resuelve_ejercicio
0.95
resuelve_ejercicio
0.05
Ejemplo: P(Resuelve_Ejercicio|
P(A|B)=P(AB)/P(B) (Asumiendo P(B)0) o equivalentemente

P(AB)= P(A|B)P(B) (Regla del Producto)
Razonamiento con Probabilidades: La

Regla de Bayes
P(A|B)= P(B|A) P(A) / P(B)
Es una consecuencia de la regla del
producto:
P(A|B)P(B) = P(A,B) = P(B|A)P(A)
De forma intuitiva:
Sabe_Concepto
P(Resuelve_Ejercicio| Sabe_Concepto)
0.10
resuelve_ejercicio
0.90
Ntese que Resuelve_Ejercicio|Sabe_Concepto y

Resuelve_Ejercicio| Sabe_Concepto son variables aleatorias
Thomas Bayes
La probabilidad de una hiptesis A dada una evidencia B: P(A|B)

es proporcional a probabilidad de la hiptesis P(A) multiplicada
por el grado en que la hiptesis predice los datos P(B|A)
Sabe_Concepto)
resuelve_ejercicio
Probabilidad Condicional
Representacin grfica
Propuesta en 1763 por el Reverendo T. Bayes
Ejemplo: P(Resuelve_Ejercicio|Sabe_Concepto)
P(Resuelve_Ejercicio|Sabe_Concepto)
Se define como:
Distribucin Condicional
Resuelve_Ejercicio
Casos posibles
A
B
B
Aplicabilidad
Fernando Prez Nava
O de forma alternativa, de los casos en los que se da B, en que

proporcin se da A?
Fernando Prez Nava
Sabe_Concepto
Probabilidad Condicional
Fernando Prez Nava
En muchos problemas dado un conjunto de datos (evidencia) B

tenemos que seleccionar la hiptesis A ms probable mediante
P(A|B)
Fernando Prez Nava
Regla de Bayes: Forma General

Forma general de la Regla de Bayes
La Regla de Bayes: Ejemplo

Intentemos resolver un caso real con
probabilidades:
Si se tiene un conjunto de proposiciones {A1, A2,..., Am}

completas y mutuamente excluyente se tiene:
P(Ai|B)=
P(B|Ai) P(Ai)
P(B|A1) P(A1)+... P(B|An) P(Am)
Se pretende determinar si un alumno conoce un concepto en

base a la resolucin de un ejercicio.
En este caso:
Hiptesis (SC): Sabe_Concepto (variable aleatoria con dos valores verdadero y
falso)
Evidencia (RE): Resuelve_Ejercicio (variable aleatoria con dos valores positivo y
negativo)
O lo que es lo mismo, si tiene una variable aleatoria A con

valores a1, a2,..., am
Aplicando la Regla de Bayes:

P(sc|re)= P(re|sc) P(sc) /(P(re|sc)
P(B|ai) P(ai)
P(B|a1) P(a1)+... P(B|an) P(am)
P( sc))=0.95
La Regla de Bayes: Ejemplo
Independencia: Una Solucin?

Independencia
Continuamos con el ejemplo:
Decimos que dos proposiciones A1 y A2 son independientes si el

conocimiento de una no cambia la probabilidad de la otra
Y si hay varios ejercicios E1,..., Em?

Supondremos que cada ejercicio RE1, RE2,..., REm es una variable aleatoria
que indica si se resuelve con dos valores: verdadero y falso.
Por ejemplo si
A1=Es rubio , A2=Tiene la piel clara ,A3=Llover maana
A1 y A3 son independientes A1 y A2 no.
Entonces si queremos calcular la probabilidad de que el alumno

sepa el concepto necesitamos calcular:
P(SC| E1,RE2,...,REm)=P(RE1,,...,REm|SC)P(SC)/P(RE1,RE2,...,REm)
Formalmente A1,A2 son independientes si P(A1|A2)=P(A1)

o de forma equivalente: P(A2|A1)=P(A2)
o utilizando la regla del producto P(A1A2)= P(A1) P(A2)
Si al alumno se le hace un conjunto de 7 ejercicios:

Entonces para almacenar la tabla de probabilidad conjunta
P(RE1,RE2,...,REm| SC) se necesitan guardar unos 27 nmeros reales (un
DVD por alumno).
De donde sacamos los nmeros ?
Cmo hacemos los clculos computacionalmente eficientes?
sc)
P( sc |re)=0.05
Entonces P(A1 A2 ... An)= P(A1) P(A2)... P(An)

Para especificar la distribucin conjunta de n variables se
necesitan o(n) nmeros en lugar de o(2n)
Fernando Prez Nava
Fernando Prez Nava
+ P(re|
Al elegir la hiptesis ms probable debemos concluir que si resuelve el

ejercicio sabe el concepto
Fernando Prez Nava
P(ai|B)=
P(sc)
Dos variables aleatorias son independientes si el conocimento

del valor que toma una no cambia la probabilidad de los valores
de la otra: P(A1=c|A2 =d) = P(A1=c)
Fernando Prez Nava
Independencia Condicional
Pero...
Independencia Condicional
Finalizamos el ejemplo:
La condicin de independencia es muy restrictiva.

Por ejemplo, los resultados de los ejercicios en la enseanza no
suelen ser independientes.
Y si hay varios ejercicios E1,E2,...,Em?

Como vimos, para calcular la probabilidad de que el alumno sepa el
concepto necesitamos calcular:
Independencia condicional
P(SC| E1,RE2,...,REm)=P(RE1,,...,REm|SC)P(SC)/P(RE1,RE2,...,REm)
Se dice que dos proposiciones A1,A2 son independientes dada

una tercera B si cuando B est presente el conocimiento de una
no influye en la probabilidad de la otra: P(A1|A2,B)=P(A1|B)
o de forma equivalente: P(A2|A1,B)=P(A2|B)
o de forma equivalente: P(A1 A2 |B)= P(A1|B) P(A2|B)
Si los resultado de los ejercicios E1,E2,...,Em son independientes

dado el concepto (aproximacin que suele dar buenos resultados):
P(RE1,,...,REm|SC)=P(RE1|SC) P(RE2|SC) ... P(REm| SC)
El problema a resolver ya es abordable:
Ejemplo:
Representacin de la
Independencia:Redes Bayesianas
La clave hacer factible la inferencia con

probabilidades es la introduccin explcita de la
independencia entre variables
El modelo ms extendido de representacin de
independencias lo constituye las Redes
Bayesianas.
En este modelo se representa de forma explcita
la dependencia entre variables mediante un grafo
Los nodos del grafo se corresponden con
variables y las dependencias se representan
mediante arcos entre ellas
Redes Bayesianas:Introduccin
Eliminan algunos de los problemas asociados al
razonamiento probabilstico
Desarrolladas a finales de los 70 (Pearl), se
convirtieron durante los 90 en un esquema
general de representacin de la incertidumbre
Una Red Bayesiana (RB) proporciona una forma
compacta y modular de representar la
distribucin conjunta de varias variables
aleatorias
Una RB consta de:
Fernando Prez Nava
Fernando Prez Nava
Tenemos o(n) nmeros en lugar de o(2n)
Una parte cualitativa que describe las relaciones entre las

distintas variables
Una parte cuantitativa que describe la fuerza de dichas
relaciones mediante probabilidades condicionadas
Fernando Prez Nava
Ahora se tiene: P(A1 A2 ... An |B)=P(A1|B) P(A2|B) ... P(An|B)
Fernando Prez Nava
A1=Tengo congestin nasal A2=Tengo fiebre A3=Tengo gripe

A1 y A2 son dependientes pero son independientes si se conoce A3.
Redes Bayesianas: Utilizacin
http://news.com.com/2009-1001-984695.html
Red Bayesiana:Ejemplo
Algunas aplicaciones de RB en empresas

Microsoft
Answer Wizard (Office)
Diagnstico de problemas de usuario (Aladdin)
Home Health en la red de Microsoft (MSN)
Intel
Diagnstico de fallos de procesadores
HP
Diagnstico de problemas de impresora
Nokia
Diagnstico de redes celulares
Nasa
Sistema de ayuda a la decisin en misiones espaciales
Diagnstico de Problemas de Impresin (Heckerman)

Fernando Prez Nava
Redes Bayesianas en la Prensa

Cnet.com
Fernando Prez Nava
En una RB, la informacin proporcionada por una

o ms variables que se observan (evidencia) se
propaga por la red y actualiza nuestra creencia
acerca de las variables no observadas. A este
proceso se le llama inferencia.
Es posible aprender las probabilidades
condicionales que describen las relaciones entre
las variables a partir de los datos. Incluso es
posible aprender la estructura completa de la red
a partir de datos completos o con algunos de sus
valores desconocidos.
Las RB pueden utilizarse para tomar decisiones
ptimas introduciendo posibles acciones y la
utilidad de sus resultados
Fernando Prez Nava
Redes Bayesianas: Inferencia,

Decisin y Aprendizaje
Fernando Prez Nava
Diagnstico de Problemas en redes celulares para Nokia (Barco y otros)

Redes Bayesianas: Algunas

Herramientas
Norsys
Vista parcial de la red para inferir si el usuario tiene dificultades con Excel (Heckerman)
Qu es un Red Bayesiana (RB)?

Una RB es un grafo dirigido en el que
cada nodo contiene informacin
probabilstica.
Para determinar una RB hace falta:
Programa: Netica
Descarga de: http://www.norsys.com/netica.html
Un conjunto de variables aleatorias que forman los nodos de la

red. Las variables pueden ser discretas o continuas
Un conjunto de enlaces dirigidos (arcos) que conectan parejas
de nodos. Si hay un arco del nodo X al Y se dice que X es el
padre de Y.
Microsoft
MSBNx
Descarga de: http://research.microsoft.com/adapt/MSBNx/
Vista parcial de la red para inferir si el usuario tiene dificultades
El significado intuitivo de un arco desde el nodo X al Y es que X tiene una

influencia directa en Y
Fernando Prez Nava
Fernando Prez Nava
Visin de alto nivel del sistema de RB para Excel
Fernando Prez Nava
Cada nodo Xi tiene una distribucin de probabilidad condicional:

P(Xi|Padres (Xi)) que mide el efecto de los padres de ese nodo.
El grafo no tiene ciclos dirigidos (y por tanto es un grafo dirigido
acclico o DAG)
Fernando Prez Nava
Red Bayesiana: Significado

Los arcos en una RB proporciona una forma de
codificar relaciones de independencia
Estas relaciones se pueden especificar como:
Ejemplos de Independencias
Para la RB del ejemplo:
Terremoto
Robo
R y L son dependientes:
Padre
Xi
L es independiente de sus no-descendientes

T,R,N, dados sus padres A
Terremoto
Noticia
radio
T y R son dependientes si se
conoce A
Robo
Si suena la alarma y ocurre una de

las causas (terremoto) me creo
menos la otra (alarma)
Si suena la alarma y ocurre una de
las causas (alarma) me creo menos
la otra (terremoto)
A este efecto se le llama eliminacin
de explicaciones
Alarma
Llamada
T y R son independientes:
N es independiente de sus no-descendientes

R,A,L dados sus padres T
Fernando Prez Nava
Si oigo en la radio que ha habido un

terremoto ya no es ms probable
que ste haya ocurrido. (ya se sabe
si ha ocurrido o no).
Si suena la alarma ya no se
incrementa la probabilidad de que
haya ocurrido un terremoto ( ya se
sabe si ocurri)
Llamada
Si desconozco si suena la alarma y

ocurre una de las causas (terremoto)
no hay razn para creer menos la
otra (alarma)
Si desconozco si suena la alarma y
ocurre una de las causas (alarma) no
hay razn para creer menos la otra
(terremoto)
Terremoto
Noticia
radio
Robo
Alarma
Llamada
T es independiente de sus no-descendientes
R dados sus padres (ninguno).
Fernando Prez Nava
N y A son independientes si se
conoce T
Alarma
Si oigo en la radio que ha habido un

terremoto es ms probable que ste
haya ocurrido, lo que hace ms
probable que que suene la alarma.
Si suena la alarma se incrementa la
probabilidad de que haya ocurrido
un terremoto y por tanto de que
oiga la noticia en la radio.
Si hay un robo ya no es ms
probable que suene la alarma ( ya se
sabe si suena o no)
Si recibo una llamada ya no se
incrementa la probabilidad de que
suene la alarma ( ya se sabe si
suena o no)
No descendiente
N y A son dependientes:
Noticia
radio
R y L son independientes si se
conoce A
Fernando Prez Nava
Descendiente
Si hay un robo es ms probable

suene la alarma, lo que hace ms
probable que que reciba una
llamada.
Si recibo una llamada se incrementa
la probabilidad de que haya sonado
la alarma y por tanto de que me
hayan robado.
Fernando Prez Nava
Dada una RB con nodos X1, X2,...

Xn. Si Padres(Xi) son los padres
de Xi y NoDescendientes(Xi) los
nodos que no son descendientes
de Xi.
Entonces para cada variable Xi
se tiene que Xi es independiente
de sus No Descendientes dados
sus Padres. Esto lo expresamos
como
Ind(Xi; NoDescendientes(Xi) |
Pa(Xi))
Transmisin de informacin en la red

Un camino del grafo puede estar:
Activo si pasa informacin por el.
Bloqueado: si no pasa
Causa Intermedia Causa Comn
R
T
A
A
N
L
R
Teorema de Factorizacin
Dada la codificacin de independencias de una RB
P( X1 ,..., X n ) = P( X i | Pa( X i ))
i
Nodo con evidencia (observado)
Efecto Comn
T
R
A
L
T
Ejemplo
Teorema de Factorizacin:
P(L,A,N,T,R) =
P(R) P(T) P(N|T) P(A|R,T) P(L|A)
Robo
Terremoto
Noticia
radio
Alarma
Factorizacin:Consecuencias
Representacin compacta
El nmero de parmetros para describir la funcin de
distribucin conjunta es lineal en el nmero n de variables
aleatorias o(n)
Ntese que el nmero de parmetros requerido en general es de
orden o(2n)
Representacin modular
Aadir una nueva variable no obliga a actualizar todos los
parmetros de la representacin
Construccin de RB
Un algoritmo de construccin de RB
Se puede describir P utilizando probabilidades

condicionales locales
Si G es un grafo disperso, es decir el nmero de
padres de cada variable est acotado:|Pa(Xi)|
k
con k un nmero pequeo se obtiene:
Elegir un grupo de variables X1,,Xn que describen un dominio

Fijar un orden en X1,,Xn (por ejemplo de las causas a los
efectos)
Mientras haya variables
Elegir la siguiente variable Xi y aadir un nodo para ella
Selecionar Padres(Xi) como el conjunto mnimo de {X1,,Xi-1 }, de forma que
Ind(Xi ; {X1,,Xi-1 } - Pai | Pai )
La red resultante depende del orden:

Orden:T, R, A, L, N
T
R
N
Fernando Prez Nava
Fernando Prez Nava
Fernando Prez Nava
N
L
Llamada
A
L
Orden: L, N, A, T, R
T
N
R
A
L
Fernando Prez Nava
La eleccin de la ordenacin y la
causalidad
Inferencia en Redes Bayesianas

Inferencia:
La eleccin de la ordenacin puede tener un

impacto drstico en la complejidad de la Red
Bayesiana.
Se pretende hallar la distribucin de probabilidad de

determinadas variables de inters dados los valores de otras
variables que se observan.
Heurstica para construir la RB:
Principales tipos de Inferencia

Diagnstico
R
Prediccin
R
Intercausal
T
Justificacin
De manera formal
La red bayesiana est formada por las variables: { X1, , Xn }
Las variables de inters son XI={ X1, , Xi }
Las variables observadas (con evidencia) son: XO={ Xi+1, , Xj }
Calcular de forma exacta la inferencia solicitada.

La complejidad de resolver de forma exacta el problema general de
inferencia en Redes Bayesianas es NP-duro.
Tipos
Los valores que toman dichas variables (evidencia) son e={ ei+1, , ej }
Para
Para
El problema a resolver es:

Calcular:
redes especficas:
rboles (Pearl), (Complejidad lineal)
Polirboles (Kim, Pearl), (Complejidad lineal)
redes generales
Eliminacin de Variables, rbol de uniones (Lauritzen y Spiegelhalter)
Algoritmos aproximados
P( XI , X O = e )
=
P( X O = e )
P(X1, X2 ,..., Xi , Xi+1 = ei+1, Xi+2 = ei+ 2 ,..., X j = e j )
Algoritmos de inferencia
Algoritmos exactos
El resto de variables son XR ={ Xj+1, , Xn }
P(Xi+1 = ei+1, Xi+2 = ei+2 ,..., X j = e j )
P(robo|alarma,
terremoto)
Los diversos algoritmos propuestos se pueden

dividir en:
Supondremos que:
P( XI | X O = e ) =
P(llama|robo)
Inferencia en Redes Bayesianas
Fernando Prez Nava
L
P(robo|llama)
Fernando Prez Nava
Generalmente se puede asumir que los grafos generados a partir

de relaciones causales cumplen las condiciones de
independencia
Fernando Prez Nava
Construir la RB utilizando la ordenacin causal entre las variables
Se basan calcular de forma aproximada la inferencia solicitada simulando la

distribucin de la red bayesiana.
Aproximar una distribucin con una tolerancia dada es tambin NP-duro.
Algunos algoritmos
Muestreo lgico (Henrion)
Ponderacin de la verosimilitud (Fung y Chang)
Fernando Prez Nava
Algoritmo de Inferencia por

Eliminacin de Variables
El problema es calcular:
El problema ahora es calcular:
P( XI , X O = e )
P( XI | X O = e ) =
P( X O = e )
P( XI , X O = e ) = P( XI , X O = e, X R ) =
XR
P(X1, X2,..., Xi, Xi+1 = ei+1, Xi+2 = ei+2,..., X j = e j, X j+1, X j+2,..., Xn )
El numerador es igual a:
X j +1,X j + 2 ,..., Xn
P( XI , X O = e ) = P( XI , X O = e, X R ) =
Idea General:
XR
P(X1, X2,..., Xi, Xi+1 = ei+1, Xi+2 = ei+2,..., X j = e j, X j+1, X j+2,..., Xn )
Para realizar de forma eficiente la suma anterior:
X j +1,X j + 2 ,..., Xn
Paso 1
Usar el teorema de factorizacin para factorizar la distribucin conjunta:
El denominador es igual a:
i
Paso 2
Fijar las variables observadas a sus valores de evidencia
Paso 3
Eliminar de forma iterativa del sumatorio las variables que no son de inters
ni de evidencia
XI
P(X1, X2,..., Xi, Xi+1 = ei+1, Xi+2 = ei+2 ,..., X j = e j )

Por tanto, si se tiene el numerador el denominador se puede
calcular a partir de ste.
Fernando Prez Nava
X1,X2 ,..., Xi
Eliminacin de variables: Ejemplo con

evidencia
La red de la Escarcha
Escarcha
P(E)
e
Watson
Accidente
P(W|E)
Holmes
Accidente
0.7
0.3
0.8
0.2
0.1
P(H|E)
0.9
e
E
0.8
0.2
0.1
Escarcha
Watson
Accidente
0.9
0.7
0.3
0.8
0.2
0.1
0.9
Factorizacin:
P(E)P(W|E)P(H|E)
gE(W)
w
Sustitucin de la evidencia
0.7 x 0.8 x 0.8+0.3 x 0.1 x 0.1 = 0.451

0.7 x 0.2 x 0.8+0.3 x 0.9 x 0.1 = 0.139
H
h
0.8
0.2
0.1
0.9
gH(E)
E
gH (E) = P(H | E)
Eliminamos H
P(E)P(W|E)P(h|E)
0.8 + 0.2 = 1.0
0.1 + 0.9 = 1.0
P(E)P(W|E)gH(E)
gE (W) = P(E)P(W | E)P(h | E)

E
Normalizamos
w
0.77
0.23
Fernando Prez Nava
Eliminamos E
P(W,h)
P(W|h)
Holmes
Accidente
P(H|E)
Calculemos P(W)
Factorizacin:
P(E)P(W|E)P(H|E)
Normalizamos
P(W|E)
P(E)
e
Calculemos P(w|h)
Eliminamos E
Eliminacin de variables: Ejemplo sin

evidencia
La red de la Escarcha
H
h
Fernando Prez Nava
P(X1, X 2 ,..., Xi , Xi+1, Xi+2 ,..., X j , X j+1, X j+ 2 ,..., Xn ) = P(Xi , pa(Xi ))
P( X O = e ) = P( XI , X O = e ) =
Eliminacin de Variables: Clculo del

numerador
gE (W) = gH (E)P(E)P(W | E)
E
P(W)
1.0 x 0.7 x 0.8+1.0 x 0.3 x 0.1 = 0.59
1.0 x 0.7 x 0.2+1.0 x 0.3 x 0.9 = 0.41
Fernando Prez Nava
Un Ejemplo ms Complejo
La Red Asia
Eliminacin de variables:
Ejemplo con evidencia
T
A
Ejemplo: calcular P(C|v,f,d)

Visita a
asia
B
D
Como siempre calculamos P(C,v,f,d) y normalizamos

Escribimos la factorizacin:
Fumador
P( V)P(F)P( T | V)P(C | F)P(B | F)P( A | T , C)P(R | A)P(D | A , B)

y sustituimos la evidencia V=cierto,F=cierto,D=cierto
Tuberculosis
P( v )P(f )P( T | v)P(C | f )P(B | f )P( A | T , C)P(R | A)P(d | A , B)
Cancer Pulmn
Anormalidad
en pecho
tenemos por tanto que eliminar:R,T,A,B (puesto que V,F,D estn

fijos)
Proceso de eliminacin:
Bronquitis
P( v )P(f )P( T | v )P(C | f )P(B | f )P( A | T , C)P(R | A)P(d | A , B)

hR (A, C) = P(R | A)
Eliminamos R
*Disnea=Dificultad para respirar

V
C
T
A
Proceso de eliminacin: continuacin
Ejemplo sin evidencia
P( v)P(f )P( T | v)P(C | f )P(B | f )P( A | T , C)P(R | A)P(d | A , B)

P( v )P(f )hR ( A)P( T | v)P(C | f )P(B | f )P( A | T , C)P(d | A , B)
T
A
R
Eliminaremos: V,F,R,T,C,A,B
Aplicando el teorema de factorizacin:
Eliminando: T,A,B
Ejemplo: Calcular P(D)
B
D

Eliminamos V
hV ( T) = P( T | V)P(V)
V
hT (A, C) = P( T | v)P(A | T, C)
Eliminamos T
h V ( T )P(F)P(C | F)P(B | F)P( A | T , C)P(R | A)P(D | A , B)
P( v)P(f )hR ( A)h T ( A , C)P(C | f )P(B | f )P(d | A , B)
h V ( T )hF (C, B)P( A | T , C)P(R | A)P(D | A , B)
hA (C, B) = hr (A)ht (A, C)P(d | A, B)

A
Eliminamos R
P( v)P(f )hA (C, B)P(C | f )P(B | f )
hR (A) = P(R | A)
A
h V ( T )hF (C, B)hR ( A)P( A | T , C)P(D | A , B)
hb (C) = hB (C, B)P(B | f )
Eliminamos B
P( v)P(f )P(C | f )hB (C)
hF (C, B) = P(C | F)P(B | F)P(F)
Normalizacin
P(C | v , f , d)
Eliminamos T
hT (A, C) = hv ( T)P(A | T, C)
T
h T ( A , C)hF (C, B)hR ( A)P(D | A , B)

Fernando Prez Nava
Eliminamos A
Eliminamos F
Fernando Prez Nava
P( v)P(f )hR ( A)P( T | v )P(C | f )P(B | f )P( A | T , C)P(d | A , B)
Fernando Prez Nava
Rayos X
Fernando Prez Nava
Disnea*
V
A
Ejemplo: Calcular P(D)

R
Eliminaremos V,F,R,T,C,A,B
Proceso de eliminacin (continuacin)
Estudiemos la complejidad:
En cada paso se calcula:

m
hX (Y1,KYk ) = h'X (X,Y1,KYk ),
Por tanto: la complejidad es exponencial en el nmero de

variables de los factores intermedios
Es necesario buscar buenos ordenes de eliminacin de
variables para reducir el tamao de los factores intermedios.
Sin embargo, el problema de buscar la ordenacin ptima tiene
tambin complejidad exponencial, por lo que se emplean
diversas heursticas.
hC (A, B) = hT (A, C)hF (C, B)
Eliminamos C
hA (D, B) = hC (A, B)hR (A)P(D | A, B)
P(D) = hA (B, D)
Eliminamos B
P(D)
Fernando Prez Nava
h A (D, B)
Decisin con Redes Bayesianas

Decisin:
Es la combinacin de dos elementos bsicos: la teora de la

probabilidad y la teora de la utilidad.
La teora de la utilidad
Ejemplo:
Quiero para hacer una fiesta en el jardn de mi casa pero puede que
llueva debera hacer la fiesta dentro de casa?
En el problema aparecen:
Establece una estructura de preferencias racional sobre los resultados de

nuestras acciones basada en un conjunto de axiomas (Savage)
Afirma que bajo esos axiomas es posible encontrar una funcin de utilidad U
que asigna un valor numrico a la utilidad de cada resultado que cumple:
Dos posibles acciones: preparar la fiesta dentro o prepararla fuera.

Cuatro posibles resultados: la fiesta se hace dentro o la fiesta se hace fuera con lluvia o
sin lluvia
Una distribucin de probabilidad sobre los resultados (no s si llover o no)
Un conjunto de preferencias sobre los resultados: prefiero hacer la fiesta fuera sin lluvia
Si el resultado A se prefiere al B entonces U(A)U(B)

Si A y B son indiferentes entonces U(A)=U(B)
Si se dan varios posibles resultados A1, A2,..., An con probabilidades p1, p2,..., pn
la utilidad del resultado conjunto es U([p1, A1; p2, A2;... pn, An])=p1U(A1)+... pnU(An)
Lugar
lluvioso
lluvioso
Aliviado
Deprimido
Arrepentido
Contento
Preferencias sobre los resultados
Cmo tomar entonces la decisin ptima?

Ejemplo de funcin de utilidad

U(Tiempo, Lugar)
Fernando Prez Nava
Tiempo
fuera
Teora de la Decisin
La teora de la decisin bajo incertidumbre:
En el tema anterior se present como razonar en presencia de

incertidumbre. Veremos ahora como tomar decisiones (actuar) bajo
incertidumbre
dentro
Fernando Prez Nava
Para cada valor de Y1, Y2,..Yk hacemos |Val(X)| sumas, por tanto el nmero
total de sumas es |Val(X)||Val(Y1)|... |Val(Yk)|
Para cada valor de X,Y1, Y2,..Yk hacemos m multiplicaciones, por tanto el
nmero total de de multiplicaciones es de m |Val(X)| |Val(Y1)|...|Val(Yk)|
h V ( T )hF (C, B)hR ( A)P( A | T , C)P(D | A , B)

h T ( A , C)hF (C, B)hR ( A)P(D | A , B)
i=1
Entonces:
h V ( T )hF (C, B)P( A | T , C)P(R | A)P(D | A , B)
Eliminamos A
h'X (X,Y1,KYk ) = fi (X,Yi1,KYili )
h V ( T )P(F)P(C | F)P(B | F)P( A | T , C)P(R | A)P(D | A , B)
hC ( A , B)hR ( A)P(D | A , B)
Complejidad del Algoritmo de

Eliminacin
Lugar
dentro
Tiempo
fuera
lluvioso
Aliviado
(60)
lluvioso
Arrepentido (50)
Deprimido (0)
Contento
(100)
Fernando Prez Nava
El Principio de la Mxima Utilidad

Esperada (MUE)
El Principio de la Mxima Utilidad

Esperada (MUE): Ejemplo
Ejemplo:
El principio de la MUE es un principio fundamental

en Inteligencia Artificial.
Establece que:
En el caso de la fiesta las acciones son:

A1=preparar fiesta dentro, A2=preparar fiesta fuera
Los resultados son:

Res1(A1)= (lluvioso,dentro), Res2(A1)= (lluvioso,dentro)
Res1(A2)= (lluvioso,fuera), Res2(A2)= (lluvioso,fuera)
La forma racional de decidir para un agente es elegir aquella

accin cuyo resultado le sea sea ms til (ms preferido).
Entonces dada una accin A con:
La funcin de utilidad es:

U(Tiempo,Lugar)
Posibles resultados: {Resultado1(A),Resultado2(A),... Resultadon(A)}

Probabilidades de obtener dichos resultados si se tiene la evidencia E:
P(Resultado1(A)|Hacer(A),E),..., P(Resultadon(A)|Hacer(A),E)
Tiempo
i=1
Redes de Decisin (Diagramas de

influencia)
Construccin
Costo
(100)
P(Res1(A1)|Hacer(A1))=P(lluvioso,dentro)/P(dentro)=P(lluvioso)
P(Res2(A1)|Hacer(A1))=P(lluvioso)
P(T)
T
lluvioso
0.4
lluvioso
0.6
Aprendizaje
Por qu realizar aprendizaje en sistemas

basados en conocimiento?
El proceso de adquisicin del conocimiento es muy caro
Frecuentemente no se tienen expertos disponibles
Por el contrario generalmente es posible disponer de grandes
cantidades de datos.
Lugar de la Fiesta
Ruido
Contento
Cualquier cambio en un sistema que le permita obtener un

mejor rendimiento la segunda vez que realiza la misma tarea u
otra tarea similar (Simon)
Ubicacin del
Aeropuerto
Daos Medio
Ambiente
Arrepentido (50)
Aprendizaje:
Nodos aleatorios (valos): Representan variables aleatorias de

la misma forma que las redes de creencia.
Nodos de decisin (rectngulos): Representan puntos para los
cuales puede decidirse que accin emprender
Nodos de utilidad (rombos): Representan la funcin de utilidad.
El Aprendizaje nos permite disear sistemas

basados en datos
U
Fernando Prez Nava
U
Tiempo
Meteorolgico
lluvioso
Deprimido (0)
U(dentro)=U(lluvioso,dentro)P(lluvioso,dentro|dentro)+U(lluvioso,dentro)P(lluvioso,d
ento|dentro)= 60*0.4+50*0.6=54
U(fuera)=U(lluvioso,fuera)P(lluvioso,fuera|fuera)+U(lluvioso,fuera)P(lluvioso,fuera|fu
era)= 0*0.4+100*0.6=60 (decisin ptima)
Una red de decisin define un escenario con una

sucesin de observaciones y decisiones
Una red de decisin est compuesta de:
Muertes
(60)
Las utilidades son:
Fernando Prez Nava
Esto es, es la suma de la utilidad de cada resultado multiplicado por la

probabilidad de obtenerlo.
Trfico Areo
Aliviado
Fernando Prez Nava
U(A | E) = P(Resultad o i (A) | Hacer(A), E)U(Result ado i (A))
Ejemplos
fuera
lluvioso
Las probabilidades son:
ser ptima si hace mxima la utilidad esperada:
Lugar
dentro
Adems estos datos pueden combinarse con las opiniones de

distintos expertos
Fernando Prez Nava
Aprendizaje en Redes Bayesianas
En este caso:
Proceso de Aprendizaje General
La estructura de la red es conocida.

El Proceso de Aprendizaje nos proporciona los parmetros que
describen las tablas de probabilidad condicional
Inferir la estructura y tablas de probabilidad condicional a partir

de datos e informacin a priori
Datos +
Informacin A Priori
Casos
T, R, A
< t, r, a>
.
.
.
<t, r, a>
P(A|R,T)
A
L
El Problema del Aprendizaje en Redes Bayesianas
Datos completos
Estimacin Paramtrica
Optimizacin sobre
T
estructuras
Datos Incompletos
Optimizacin Paramtrica
Tcnicas Combinadas
Aprendizaje de Redes Bayesianas en

Netica
Slo resuelve los casos de Estructura Conocida
Estimacin de los parmetros (Datos Completos)
Ejemplo:
T
R
A
R
r
P(A|R,T)
0.99
0.01
0.2
0.8
0.8
0.2
0.01
0.99
20
980
Casos
T, R, A
< t, r, a>
.
< t, r, a>
.
<t, r, a>
P(A|R,T)
0.99
0.2
0.8
0.81
0.19
0.01
0.99
21
980
T
T
R
A
P(A|R,T)
0.99
0.01
0.2
0.8
0.8
0.2
0.01
0.99
Aplicaciones de Redes Bayesianas en

Educacin
Por qu construirlos?
Idealmente permiten un profesor por alumno y por tanto se
tiene un profesor que se adapta:
A las caractersticas personales del alumno
A su ritmo de aprendizaje
A sus horarios
Sin embargo...
La capacidad actual de procesamiento del lenguaje natural no permite
conversar de forma normal con un STI
Siempre habr estudiantes para los que la enseanza por ordenador no sea
adecuada
0.01
Son sistemas informticos para la enseanza de estudiantes.
p=(pe+1)/(e+1) (si el estado del nodo coincide con el valor del

caso para ese nodo)
p=(pe)/(e+1)
(si no coincide con el valor)
T
P(A|R,T)
Sistemas Tutoriales Inteligentes (STI)
Dado un caso que proporciona valores para un nodo y sus

padres, la nueva probabilidad condicional p y el nuevo nmero
de casos de los padres e se actualizan para esos valores en
funcin de los anteriores p y e como:
e=e+1
Objetivo actual:
Fernando Prez Nava
Aprendizaje
R
Estructura Desconocida
Fernando Prez Nava
Estructura Conocida
Fernando Prez Nava
T
Proceso
De
Aprendizaje
Aprendizaje en RB: Datos Completos

y Estructura Conocida (DC/EC)
Construir sistemas informticos para ayudar al profesor, en

clase, en el lugar de trabajo o en casa.
Fernando Prez Nava
Arquitectura de un STI
Experto en el
Dominio
Conocimiento del
Dominio
Incertidumbre en el modelado del estudiante

Conocimiento
Pedaggico
Mdulo
Pedaggico
Modelado del
Estudiante
En los datos
Experto en el dominio
Representacin del Conocimiento
del dominio a ensear
Interface
El STI debe construir el modelo del estudiante a partir de un conjunto de

datos muy limitado. (Generalmente limitados a respuestas del teclado y
ratn)
Modelos del
Estudiante
En la inferencia
Modelado del estudiante

Representacin del estudiante que usa el STI.
Es el mdulo de mayor importancia
Las reglas para la construccin del modelo del estudiante a partir de datos
suelen ser heursticas (y por tanto subptimas).
Estudiante
En la seleccin de acciones
Modelos del estudiante
La incertidumbre en el modelo del estudiante se traslada a la seleccin de la

accin pedaggica ms adecuada.
Almacenamiento de los distintos modelos de estudiantes que usan el

sistema
Observacin
Mdulo Pedaggico
Subsistema que toma las decisiones acerca de cmo ensear el dominio
basado en el Conocimiento pedaggico.
Mdulo de comunicacin del STI con el estudiante
STI con Redes Bayesianas

Basadas en la idea de restringir los tipos de modelos permitidos y ajustar el
conocimiento del dominio a dichos modelos. Estas restricciones se eligen
generalmente de forma que se optimice algn aspecto de la eficiencia como por
ejemplo el tiempo de realizar inferencias sobre la red.
Ejemplos:
(Reye, 1998)
(Murray, 1998)
(Collins y otros, 1996)
(Mayo y Mitrovic, 2000)
Ventajas
Eficiencia
Los modelos utilizados permiten modelar la adquisicin del conocimiento
por parte del alumno a travs del tiempo.
Inconvenientes
La bsqueda de la eficiencia puede introducir simplificaciones incorrectas
acerca del dominio.
Las propuestas se pueden dividir en tres grupos:

Centradas en expertos
Centradas en la eficiencia
Modelado del estudiante con Redes Bayesianas

Basadas en utilizar expertos que especifican de manera general y de forma
directa o indirecta la estructura completa y las tablas de probabilidad condicional
del modelo del estudiante
Ejemplos:
ANDES (Gertner & Van Lehn 2000) http://www.andes.pitt.edu/
HYDRIVE (Miselvy & Gitomer, 1996)
DT- Tutor (Murry & VanLenh, 2000)
ADELE (Ganeshan y otros 2000)
Ventajas
La utilizacin de expertos proporciona modelos de gran calidad
Principal inconveniente:
Los modelos resultantes de las propuestas de los expertos incluyen tantas
variables que puede ser infactible trabajar con la red bayesiana en tiempo
real.
Modelo del estudiante
Incertidumbre en la
seleccin de acciones
Fernando Prez Nava
Fernando Prez Nava
Interface
Acciones pedaggicas
Incertidumbre en los datos

e inferencia
Fernando Prez Nava
Elementos de la
arquitectura
Incertidumbre en los STI
Fernando Prez Nava

Centradas en los datos
Seleccin de acciones pedaggicas

Una vez obtenido el modelo del estudiante, ste
debe usarse para elegir la accin pedaggica
ptima
Basadas en la idea de aprender tanto la estructura como las probabilidades

condicionales de la red del trabajo en tiempo real del tutor.
Ejemplos:
MANIC (Stern y otros, 1999)
CAPIT (Mayo y Mitrovic, 2001)
Ventajas
Tienden a ser ms simples al estar basados en variables observadas
Permiten evaluar la calidad del modelo
Los modelos utilizados permiten modelar la adquisicin del conocimiento
por parte del alumno a travs del tiempo.
Inconvenientes
Requieren grandes cantidades de datos
Tipos de estrategias
Heursticas
Utilizan la salida del proceso de inferencia como entrada a una regla de seleccin
heurstica
Ejemplos
ANDES, ADELE
Diagnstico
Seleccionan la accin que maximizan la certidumbre de que el estudiante ha
adquirido los conceptos del dominio
Ejemplos
(Collins y otros, 1996)
Ejemplo del Modelo del Alumno:

Parte Cualitativa

Parte Cuantitativa (1)
Tablas de Probabilidad Conceptos-Ejercicios
Sabe la Asignatura
C1
T1
C11
P1
P2
Ts
C1n1
P3
Cs1
Sabe el Tema
Csns
Pm
Resuelve
la Prueba
Sabe el
Concepto
Cn
Resuelve
la Prueba
Sabe el
Concepto
C2
Cuando un ejercicio depende de varios conceptos la tabla de

probabilidad condicional puede ser muy grande.
Generalmente los conceptos no son independientes, pero se
puede asumir que la capacidad de aplicarlos cada concepto
correctamente cuando se sabe si es independiente. Entonces se
introduce la red:
C1
C2
Cn
Sabe el
Concepto
A1
A2
An
Sabe Aplicarlo
Resuelve
la Prueba
Fernando Prez Nava
Fernando Prez Nava
Fernando Prez Nava
Seleccionan la accin que maximiza su utilidad esperada

Ejemplos
CAPIT, DT-Tutor
Fernando Prez Nava
Teora de la decisin

Llamaremos:
Parmetro pi =1- si /(1- gi )

Parmetro leak=(1- gi )
P(Ai=0|Ci=1)=di a la probabilidad de descuido, el alumno sabe

el concepto, pero se equivoc al aplicarlo.
P(Ai=1|Ci=0)=si a la probabilidad de suerte, el alumno no
sabe el concepto, pero acert al aplicarlo.
Noisy And en el programa Netica:

Parmetro pi =1- gi /(1- si )
Parmetro lnh=1-(1- si )
Entonces:
Cuando para resolver un ejercicio es necesario conocer todos los
conceptos aparece el modelo de probabilidades condicionales
Noisy AND.
Cuando para resolver un ejercicio es necesario conocer algn
concepto aparece el modelo de probabilidades condicionales
Noisy OR.
Las relaciones entre Conceptos, Temas y

Asignaturas se modelan de forma similar
Fernando Prez Nava

Noisy Or en el programa Netica:
Fernando Prez Nava

RedesBayesianas Educa

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

RedesBayesianas Educa

Cargado por

Copyright:

Formatos disponibles

Redes Bayesianas e Inteligencia

Artificial: Aplicaciones en Educacin

Algunas Referencias Bibliogrficas:

Inteligencia Artificial y Educacin

Fernando Prez Nava

1. Introduccin a las Redes Bayesianas.

Fernando Prez Nava

Falta de conocimiento seguro y claro de algo. (Diccionario

Algunas fuentes de incertidumbre

2. Aplicaciones de Redes Bayesianas en Educacin

Puede que en un determinado campo el conocimiento sea incompleto.

Sistemas Tutoriales Inteligentes

Fernando Prez Nava

Fernando Prez Nava

Presente en modelos fsicos

Razonamiento con Incertidumbre

El propsito ltimo de un sistema inteligente es

Ser capaz de razonar sin tener todo el conocimiento relevante en

Cuando se tienen distintas opciones un sistema debe decidirse por aquella

Lgicas por Defecto

Es un rea de las Matemticas que ha sido aplicada a problemas

La asuncin del mundo cerrado

La importancia de los distintos resultados de una accin

Fernando Prez Nava

Cuando hay incertidumbre para poder decidir racionalmente se

Fernando Prez Nava

Fernando Prez Nava

Actuar con Incertidumbre

En la Lgica Proposicional las proposiciones son ciertas o falsas.

Fernando Prez Nava

Qu son las Probabilidades?

Los Valores Numricos de la

Frecuentista: Es el valor, cuando el nmero de pruebas tiende a

Los valores de la Probabilidad satisfacen tres

Existe un consenso sobre el modelo matemtico que soporta la

Consecuencias de los axiomas de

Ley de Probabilidad Total

Se conocen todos los posibles resultados

En general, si Bi i=1...n es un conjunto completo y mutuamente

No se pueden dar dos resultados distintos simultneamente.

Si tiramos una moneda, el resultado es cara o cruz

Fernando Prez Nava

La temperatura de un paciente puede estar en un conjunto de intervalos:

Fernando Prez Nava

Fernando Prez Nava

Siempre que A y B sean mutuamente exclusivos, es decir (AB)

Por ejemplo, si M=Resultado de tirar una moneda con valores

Distribucin de probabilidad de la variable Llueve

Ejemplo de distribucin conjunta

Podemos estar interesados en estudiar varias

Generalmente lo escribiremos como:

Tambin se puede escribir como:

Para ello se necesita asignar probabilidades a

Recuerda a la tabla de la verdad lgica excepto que:

Describe las probabilidad para cada combinacin de valores de las

Fernando Prez Nava

Fernando Prez Nava

Se suele escribir P(M=cara) como P(cara), cuando el contexto lo

Escribiremos P(A|B) para representar la

La distribucin conjunta contiene todo lo que se necesita saber

Entonces P(sabe_concepto)= P(sabe_concepto resuelve_ejercicio)+

Nos permite conocer la probabilidad de que se

P(A|B)=P(AB)/P(B) (Asumiendo P(B)0) o equivalentemente

Razonamiento con Probabilidades: La