Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contenido
Resumen
5.1. Incertidumbre
5.2. Sistemas de Razonamiento Probabilística
5.2.1. Introducción
5.2.2. Introducción a Inferencia Bayesiana
5.2.3. Teorema de Bayes
5.2.4. Teorema de Bayes Aplicado
5.3. Redes Bayesianas
5.3.1. Introducción
5.3.2. Definición
5.3.3. Ilustración con redes bayesianas
5.4. Implicaciones algorítmicas de redes bayesianas
5.5. Usos prácticos de las redes bayesianas
5.6. Limitaciones de las redes bayesianas
Resumen
Las Redes Bayesianas son una área creciente e importante para la investigación y
aplicación en todos los campos de la Inteligencia Artificial. Este trabajo explora la
naturaleza e implicaciones para las Redes Bayesianas, comenzando con una perspectiva
y comparación de la estadística inferencial y el Teorema de Bayes. La naturaleza,
relevancia y aplicabilidad de la teoría de Redes Bayesianas para problemas de cómputo
avanzados forma el núcleo de la discusión actual. Se examina un número de
aplicaciones actuales usando redes Bayesianas. El trabajo concluye con una breve
discusión de las limitaciones y propiedad de las Redes Bayesianas para la interacción
humano-computadora y el aprendizaje automatizado.
1
Esta suposición no es necesariamente correcta. Conforme el tamaño de la muestra se
hace más pequeño, el potencial de error crece. Por esta razón, la estadística inferencial
ha desarrollado numerosas técnicas para decir el nivel de confianza que puede ponerse
en estas inferencias.
Si tomamos 10 muestras de 100 canicas cada una, podemos encontrar los siguientes
resultados.
σ=
∑x 2
(ec. 1)[2]
n −1
σ=
1
(ec. 2)
n −1
Se podría intentar decir que cerca del 40% de las canicas son blancas, pero seríamos
incapaces de argumentar ese punto con algún grado de certidumbre. Usando la ecuación
2 de arriba, determinamos que la Desviación Estándar es 11.15. Entonces debemos
determinar el “Error Medio de la Muestra” (donde s=[sigma]):
s
sX = (ec. 4)
n
La confianza que podemos poner a nuestra hipótesis de que u=40 de las canicas son
blancas se encuentra usando una prueba estadística estándar llamada “z-test”:
2
X −µ
z= (ec. 5)
sX
Usando una tabla z-test [3] y nuestro valor-z resultante de -.4532, encontramos que 32%
del area de la curva normal caería debajo de este valor "z". En otras palabras, en 32% de
muestras s X dadas, X sería menor que 38.4. Puesto que la distribución es doble-lado
o doble cola (i.e., la muestra promedio también podría ser mayor que la población
promedio), podríamos esperar que X sea mayor que ((u- X )+u=) 41.6 en otro 32% de
casos.
En resumen, si esperamos que 40% de todas las canicas sean blancas, entonces una serie
de diez muestras con solo 38.4% de canicas blancas sería esperada el (100-64%=) 36%
de las veces. Claramente, la confianza que podemos poner en nuestra conclusión no es
tan buena como era a primera vista. Esta falta de confianza se debe a la gran
variabilidad entre las muestras. Si tomamos mas muestras o muestras mayores, nuestra
confianza en nuestra conclusión podría aumentar.
Asumir una situación donde una inversionista está considerando comprar alguna clase
de franquicia exclusiva en un territorio geográfico dado. Su plan de negocio sugiere que
ella debe llevar a cabo 25% de saturación de mercado para que la empresa sea
provechosa. Usando algunos de sus fondos de inversión, ella contrata una compañía
encuestadora para que elabore un estudio aleatorio. Los resultados concluyen que de
una muestra al azar de 20 consumidores, 25% de la población estaría preparada para
comprar sus servicios. ¿Es suficiente esta evidencia para proceder con la inversión?
Si esto es todo, la inversionista tiene que continuar, ella podría encontrarse en su punto
de equilibrio y solo podría tan fácilmente volver a perder en lugar de sacar provecho.
Ella podría no tener suficiente confianza en ese estudio o su plan de proceder.
3
Mercado dada.
Porciento de Franquicias (Frecuencia
Saturación Mercado (Proporción) =p
Relativa)
0.10 0.05
0.15 0.05
0.20 0.20
0.25 0.20
0.30 0.40
0.35 0.10
Total = 1.00
P ( H | c ) * P( E | H , c )
P( H | E , c ) = (ec.6)
P( E | c )
En el caso de nuestro inversionista, ya se sabe que P(H|c) es 0.40, así que la ecuación
Bayesiana se resuelve para:
0.40 * P ( E | H , c)
P( H | E , c ) = (ec. 7)
P( E | c)
Es importante notar que todas estas probabilidades son condicionales. Ellas especifican
el grado de creencia en alguna proposición ó proposiciones basadas en la suposición de
que algunas otras proposiciones son verdaderas. Como tal, la teoría no tiene significado
sin resolución a priori de la probabilidad de estas proposiciones antecedentes.
4
5.2.4 Teorema de Bayes Aplicado
n!
P( x ) = p x (1 − p )
n −x
(ec. 8)[5]
x! ( n − x )!
20!
P( x = 5 | p.20 ) = ( 0.25 ) 5 ( 0.75 ) 15 = 0.20233 (ec. 9)
5! ( 20 − 5)!
Sumando las probabilidades relativas a posteriori para cuotas del mercado >=25% y
aquellas <25%, nuestro inversionista verá que hay una 75% de probabilidad de que su
franquicia ganará dinero -- definitivamente una situación más atractiva en la cual basar
una decisión de inversión.
5
5.3 Redes Bayesianas
5.3.1 Introducción
5.3.2 Definición
Una red Bayesiana de dominio U representa una gpdf común sobre U. Esta
representación consiste de un conjunto de condicionales locales gpdfs combinado con
un conjunto afirmaciones de independencia condicional que permiten la construcción de
una gpdf global de las gpdfs locales. Como se demostró previamente la regla de la
cadena de la probabilidad puede ser usada para afirmar estos valores:
n
p( x1 ,... xn | ξ) = ∏ p( xi | x1 ,... xi −1 , ξ) (ec. 10)
i =1
6
Entonces, una Estructura de Red Bayesiana codifica las afirmaciones de independencia
condicional en la ecuación 10. Entonces esencialmente, una Estructura de Red
Bayesiana Bs “es una gráfica acíclica dirigida tal que (1) cada variable en U corresponde
a un nodo en Bs, y (2) los padres del nodo correspondiente a xi son los nodos
correspondientes a las variables en [Pi]i.”[8]
(
“Una gpdf de red-Bayesiana Bp es la colección de gpdfs locales p xi | ∏i , ξ para )
cada nodo en el dominio.” [9]
Dada una situación donde hoy podría llover, y mañana podría llover, ¿cuál es la
probabilidad de que llueva en ambos días? Que llueva en dos días consecutivos, no son
eventos independientes con probabilidades aisladas. Si llueve en un día, es más
probable que llueva al siguiente. Resolver este problema involucra determinar la
probabilidad de que llueva hoy, y entonces determinar la probabilidad de que llueva
mañana condicional a la probabilidad de que llueva hoy. Estas son conocidas como
“probabilidades comunes.” Supóngase que P(llueva hoy) = 0.20 y P(llueva mañana
dado que llueve hoy) = 0.70. La probabilidad de tales eventos conjuntos es determinada
por:
P ( E1 , E 2 ) = P ( E1 ) P ( E 2 E1 ) (eq. 12)
P ( E1 , E 2 )
P ( E 2 E1 ) = (eq. 13)[10]
P ( E1 )
Resolviendo las probabilidades comunes para todas las eventualidades, los resultados se
pueden expresar en un formato de tabla:
De la tabla, es evidente que la probabilidad común de lluvia en ambos días es 0.14, pero
existe gran parte de otra información que tenía que ser traída al cálculo antes de que
fuera posible una determinación. Con solo dos variables binarias, discretas, se
requirieron cuatro cálculos.
Este mismo escenario se puede expresar usando un Diagrama de Red Bayesiana como
el siguiente (en la Figura 1: “!” es usado para denotar “no”).
7
Figura 1: Una Red Bayesiana que muestra la probabilidad de que llueva
Algo atractivo de las Redes Bayesianas es la eficiencia que solo una rama del árbol
necesita para ser viajada. Realmente solo estamos concernidos con P(E1), P(E2|E1) y
P(E2,E1).
Al mismo tiempo que acentuar indiferencia paramétrica, las Redes Bayesianas también
proporcionan una representación parsimoniosa de condicionalidad entre relaciones
paramétricas. Mientras que la probabilidad de lluvia hoy y la probabilidad de lluvia
mañana son dos acontecimientos discretos (no puede llover hoy y mañana al mismo
tiempo), existe una relación condicional entre ellos (si hoy llueve, es mas probable que
los sistemas persistentes del tiempo y la humedad residual den lugar a que mañana
llueva). Por esta razón, los bordes dirigidos del gráfico están conectados para demostrar
esta dependencia.
Friedman y Goldszmidt sugieren el mirar las redes Bayesian como una "anecdota".
Ofrecen el ejemplo de una anecdota que contiene cinco variables al azar: " Burglary" , "
Earthquake" , " Alarm" , " Neighbour Call "; , y " Radio Announcement ";. [11] En tal
anecdota, " Burglary" y " Earthquake" son independientes, y " Burglary" y " Radio
Announcement "; son independientes dado "Earthquake." És decir no hay
acontecimiento que efectúe robos y terremotos. También, " Burglary" y " Radio
Announcement"; son independientes dado "Earthquake" –indica que mientras un aviso
de radio pudo resultar de un terremoto, no resultará como una repercusión de un robo.
8
P(A,R,E,B)=P(A|R,E,B)*P(R|E,B)*P(E|B)*P(B)
Pasando de 15 parametros a 8:
P(A,R,E,B) = P(A|E,B)*P(R|E)*P(E)*P(B)
Usar una red Bayesiana ofrece muchas ventajas sobre los métodos tradicionales para
determinar relaciones causales. La independencia entre variables es fácil de reconocer y
aislar mientras las relaciones condicionales estén claramente delimitadas por un borde
dirigido del gráfico: dos variables son independientes si todas las trayectorias entre ellos
están bloqueadas (dado que los bordes sean direccionales). No todas las probabilidades
comunes necesitan ser calculadas para tomar una decisión; las ramas y las relaciones
extrañas pueden ser ignoradas (Uno puede hacer una predicción de un aviso de radio sin
importar si una alarma suena). Optimizando el gráfico, se puede demostrar que cada
nodo tiene a lo más k padres. Las rutinas algorítmicas requeridas se pueden entonces
correr en O(2kn) en lugar de O(2n) veces. En esencia, el algoritmo puede funcionar en
tiempo lineal (basado en el número de bordes) en vez del tiempo exponencial (basado
en el número de parámetros).[12]
Tabla 5: Distribución de
Probabilidad para el Nodo
Alarma dados los eventos de
"Temblores" y "Robos". (Nota:
“¬” denota “no”)
E B P(A|E,B) P(¬A|E,B)
E B 0.90 0.10
E ¬B 0.20 0.80
9
¬E B 0.90 0.10
¬E ¬B 0.01 0.99
Por ejemplo, debe haber un terremoto y un robo, para que la alarma tenga una
posibilidad de 90% de sonar. Con solo un terremoto y sin robo, sonaría solo en 20% de
los casos. Un robo sin terremoto fijaría la alarma 90% de las veces, y la probabilidad de
una alarma falsa no dado que no hay eventos antecedentes debería solo tener una
probabilidad de 0.1% de las veces. Obviamente, estos valores tendrían que ser
determinados a posteriori.
10
Figura 3: Una interpolación AutoClass de datos sin categorías predefinidas. with no
predefined categories. Los datos clasificados son agrupados por el color y la forma. El
área superior se clasifica en las formas verde-azules, el centro en azules, y la parte
inferior en formas rojo-anaranjado-amarillas
11
Lumiere
Microsoft comenzó a trabajar en 1993 en Lumiere, su proyecto para crear software que
automática e inteligentemente pudiera interactuar con usuarios del software anticipando
las metas y necesidades de estos usuarios.
12
Conclusiones
Al lado de estas preocupaciones, las redes Bayesian tienen poder increíble de ofrecer
ayuda en una amplia gama de esfuerzos. Apoyan el uso de inferencia probabilística para
actualizar y revisar valores de la creencia. Las redes Bayesianas permiten fácilmente
inferencias cualitativas sin las ineficiencias computacionales de determinaciones
tradicionales de probabilidad común. Al hacer eso, apoyan la inferencia compleja que
modela incluyendo sistemas de toma de decisión racionales, el valor de la información y
el análisis de sensibilidad. Como tal, son útiles para el análisis de la causalidad y por
medio de inducción estadística apoyan una forma de aprendizaje automatizado. Este
aprendizaje puede implicar descubrimiento paramétrico, descubrimiento de red, y
descubrimiento causal de la relación. [21]
En este artículo, discutimos las premisas de redes Bayesiana del Teorema de Bayes y
cómo tal inferencia Bayesiana difiere de tratamientos clásicos de la inferencia
estadística. Las razones, implicaciones y potencial emergente de redes Bayesiana en el
área de Inteligencia Artificial fueron explorados entonces con un foco aplicado que
perfilaba algunas áreas comunes donde los modelos y las redes Bayesianas se están
empleando para abordar problemas de la vida real. Finalmente, examinamos algunas de
las limitaciones de redes Bayesianas.
En lo mejor, tal artículo solo puede ser una foto del estado de la investigación
Bayesiana en un lugar y momento dados. La anchura y los focos eclécticos de los
muchos individuos, grupos y corporaciones investigando este asunto le hace uno de las
áreas verdaderamente dinámicas dentro de la disciplina de la inteligencia artificial.
These concerns aside, Bayesian networks have incredible power to offer assistance in a
wide range of endeavours. They support the use of probabilistic inference to update and
revise belief values. Bayesian networks readily permit qualitative inferences without the
computational inefficiencies of traditional joint probability determinations. In doing so,
they support complex inference modelling including rational decision making systems,
value of information and sensitivity analysis. As such, they are useful for causality
analysis and through statistical induction they support a form of automated learning.
This learning can involve parametric discovery, network discovery, and causal
relationship discovery.[21]
In this paper, we discussed the premises of Bayesian networks from Bayes' Theorem
and how such Bayesian inference differs from classical treatments of statistical
inference. The reasons, implications and emerging potential of Bayesian networks in the
area of Artificial Intelligence were then explored with an applied focus profiling some
current areas where Bayesian networks and models are being employed to address real-
life problems. Finally, we examined some of the limitations of Bayesian networks.
At best, such a paper can only be a snapshot of the state of Bayesian research at a given
time and place. The breadth and eclectic foci of the many individuals, groups and
corporations researching this topic makes it one of the truly dynamic areas within the
discipline of Artificial Intelligence.
13
References
[1]Hopkins, K.D. & G.V. Glass. Basic Statistics for the Behavioral Sciences. Prentice-
Hall Inc., Englewood Cliffs, N.J. 1978. p. 3.
[2]Although this is properly a binomial distribution rather than a normal one, the use of
[sigma] to represent the variability of the sample illustrates the basic point.
[16] http://ic-www.arc.nasa.gov/ic/projects/bayes-group/autoclass/index.html
14
[18] Cooper, G., E. Horvitz, & R. Curry
"Conceptual Design of Goal Understanding Systems: Investigation of Temporal
Reasoning Under Uncertainty" Decision Theory & Adaptive Systems Group, Microsoft
Research. Microsoft Corp. Redmond, WA: 1998.
http://research.microsoft.com/research/dtg/horvitz/goal.htm
[19] Horvitz, E.
"Lumiere Project: Bayesian Reasoning for Automated Assistance" Decision Theory &
Adaptive Systems Group, Microsoft Research. Microsoft Corp. Redmond, WA: 1998.
http://research.microsoft.com/research/dtg/horvitz/lum.htm
[21] http://www.erg.sri.com/people/moises/tutorial/sld029.htm
15