Está en la página 1de 15

Métodos Bayesianos

Contenido
Resumen
5.1. Incertidumbre
5.2. Sistemas de Razonamiento Probabilística
5.2.1. Introducción
5.2.2. Introducción a Inferencia Bayesiana
5.2.3. Teorema de Bayes
5.2.4. Teorema de Bayes Aplicado
5.3. Redes Bayesianas
5.3.1. Introducción
5.3.2. Definición
5.3.3. Ilustración con redes bayesianas
5.4. Implicaciones algorítmicas de redes bayesianas
5.5. Usos prácticos de las redes bayesianas
5.6. Limitaciones de las redes bayesianas

Resumen
Las Redes Bayesianas son una área creciente e importante para la investigación y
aplicación en todos los campos de la Inteligencia Artificial. Este trabajo explora la
naturaleza e implicaciones para las Redes Bayesianas, comenzando con una perspectiva
y comparación de la estadística inferencial y el Teorema de Bayes. La naturaleza,
relevancia y aplicabilidad de la teoría de Redes Bayesianas para problemas de cómputo
avanzados forma el núcleo de la discusión actual. Se examina un número de
aplicaciones actuales usando redes Bayesianas. El trabajo concluye con una breve
discusión de las limitaciones y propiedad de las Redes Bayesianas para la interacción
humano-computadora y el aprendizaje automatizado.

5.2 Sistemas de Razonamiento Probabilística


5.2.1 Introducción

La estadística inferencial es una rama de la estadística que intenta hacer predicciones


válidas basadas solo en una muestra de todas las observaciones posibles [1]. Por
ejemplo, imaginemos una bolsa de 10,000 canicas. Algunas son negras y otras son
blancas, pero la proporción exacta de estos colores es desconocida. No es necesario
contar todas las canicas para hacer algún comentario acerca de proporción. Una muestra
de 1,000 canicas puede ser suficiente para hacer una inferencia acerca de la proporción
de canicas negras y blancas en la población completa. Si el 40% de nuestra muestra son
blancas, entonces podemos ser capaces de inferir que cerca del 40 % de la población
también son blancas. A la persona floja, este proceso le parecería más bien directo. De
hecho, podría parecer que no hay necesidad aun de adquirir una muestra de 1,000
canicas. Una muestra de 100, ó aun de 10 canicas podría ser suficiente.

1
Esta suposición no es necesariamente correcta. Conforme el tamaño de la muestra se
hace más pequeño, el potencial de error crece. Por esta razón, la estadística inferencial
ha desarrollado numerosas técnicas para decir el nivel de confianza que puede ponerse
en estas inferencias.

Si tomamos 10 muestras de 100 canicas cada una, podemos encontrar los siguientes
resultados.

Tabla 1: Proporción relativa de 10 muestras de una población de


10,000
Número deNúmero de CanicasNúmero de Canicas
muestra Blancas Negras
1 40 60
2 35 65
3 47 53
4 50 50
5 31 69
6 25 75
7 36 64
8 20 80
9 45 55
10 55 45

Entonces, estamos en la posición de calcular la “Desviación Estándar” de estas


muestras:

σ=
∑x 2
(ec. 1)[2]
n −1

donde x2 es la suma de los cuadrados tal que la ecuación se expande a:

∑(X − X) + (X2 − X) + (XK − X)


2 2 2

σ=
1
(ec. 2)
n −1

y n es el número de muestras. En nuestro ejemplo, el número medio de canicas Blancas


es X = 38 .4 .

Se podría intentar decir que cerca del 40% de las canicas son blancas, pero seríamos
incapaces de argumentar ese punto con algún grado de certidumbre. Usando la ecuación
2 de arriba, determinamos que la Desviación Estándar es 11.15. Entonces debemos
determinar el “Error Medio de la Muestra” (donde s=[sigma]):

s
sX = (ec. 4)
n
La confianza que podemos poner a nuestra hipótesis de que u=40 de las canicas son
blancas se encuentra usando una prueba estadística estándar llamada “z-test”:

2
X −µ
z= (ec. 5)
sX

Usando una tabla z-test [3] y nuestro valor-z resultante de -.4532, encontramos que 32%
del area de la curva normal caería debajo de este valor "z". En otras palabras, en 32% de
muestras s X dadas, X sería menor que 38.4. Puesto que la distribución es doble-lado
o doble cola (i.e., la muestra promedio también podría ser mayor que la población
promedio), podríamos esperar que X sea mayor que ((u- X )+u=) 41.6 en otro 32% de
casos.

En resumen, si esperamos que 40% de todas las canicas sean blancas, entonces una serie
de diez muestras con solo 38.4% de canicas blancas sería esperada el (100-64%=) 36%
de las veces. Claramente, la confianza que podemos poner en nuestra conclusión no es
tan buena como era a primera vista. Esta falta de confianza se debe a la gran
variabilidad entre las muestras. Si tomamos mas muestras o muestras mayores, nuestra
confianza en nuestra conclusión podría aumentar.

5.2.2 Una Introducción a Inferencia Bayesiana

Modelos clásicos inferenciales no permiten la introducción de conocimiento a priori en


los cálculos. Para el rigor del método científico, esta es una respuesta apropiada para
prevenir la introducción de datos extraños que podrían torcer los resultados
experimentales. Sin embargo, hay ocasiones en que el uso de conocimiento a priori sería
una contribución útil al proceso de evaluación.

Asumir una situación donde una inversionista está considerando comprar alguna clase
de franquicia exclusiva en un territorio geográfico dado. Su plan de negocio sugiere que
ella debe llevar a cabo 25% de saturación de mercado para que la empresa sea
provechosa. Usando algunos de sus fondos de inversión, ella contrata una compañía
encuestadora para que elabore un estudio aleatorio. Los resultados concluyen que de
una muestra al azar de 20 consumidores, 25% de la población estaría preparada para
comprar sus servicios. ¿Es suficiente esta evidencia para proceder con la inversión?

Si esto es todo, la inversionista tiene que continuar, ella podría encontrarse en su punto
de equilibrio y solo podría tan fácilmente volver a perder en lugar de sacar provecho.
Ella podría no tener suficiente confianza en ese estudio o su plan de proceder.

Afortunadamente, la compañía franquiciante tiene mucha experiencia en explotación de


mercados nuevos. Sus resultados muestran que en 20% de los casos, las franquicias
nuevas solo acaparan un 25% de saturación de mercado, mientras que en 40% de los
casos, las franquicias nuevas acaparan un 30% de saturación de mercado. La tabla
completa de sus hallazgos aparece en seguida:

Tabla 2: Porciento de Franquicias Nuevas que acaparan una Saturación de

3
Mercado dada.
Porciento de Franquicias (Frecuencia
Saturación Mercado (Proporción) =p
Relativa)
0.10 0.05
0.15 0.05
0.20 0.20
0.25 0.20
0.30 0.40
0.35 0.10
Total = 1.00

La cuestión de nuestro inversionista es simple “¿Cuál es la probabilidad de que mi


población logre una saturación de mercado mayor del 25% dada la encuesta realizada y
los resultados encontrados en otros lugares?” En efecto, ella necesita determinar la
probabilidad de que su población sea una del 70% de casos donde la saturación de
mercado es mayor que o igual a 25%. Ahora ella tiene la información que necesita para
hacer una inferencia Bayesiana de su situación.

5.2.3 Teorema de Bayes.

El Teorema de Bayes, desarrollado por el Rev. Thomas Bayes, un matemático y teólogo


del siglo 18, primero fue publicado en 1763.[4] Matemáticamente se expresa como:

P ( H | c ) * P( E | H , c )
P( H | E , c ) = (ec.6)
P( E | c )

donde podemos actualizar nuestra creencia en la hipótesis H dada la evidencia adicional


E y el contexto antecesor c. El término del lado-izquierdo P(H|E,c) es conocido como la
“probabilidad a posterior,” o la probabiliad de H después de considerar el efecto de E
sobre c. El término P(H|c) es llamado la “probabilidada a priori” de H dado solo c. El
término P(E|H,c) es llamado la “verosimilitud” y da la probabilidad de la evidencia
asumiendo que la hipótesis H y la información antecedente c son verdaderas.
Finalmente el último término P(E|c) es independiente de H y puede ser tratado como el
factor de normalización ó escalamiento.

En el caso de nuestro inversionista, ya se sabe que P(H|c) es 0.40, así que la ecuación
Bayesiana se resuelve para:

0.40 * P ( E | H , c)
P( H | E , c ) = (ec. 7)
P( E | c)

Es importante notar que todas estas probabilidades son condicionales. Ellas especifican
el grado de creencia en alguna proposición ó proposiciones basadas en la suposición de
que algunas otras proposiciones son verdaderas. Como tal, la teoría no tiene significado
sin resolución a priori de la probabilidad de estas proposiciones antecedentes.

4
5.2.4 Teorema de Bayes Aplicado

Regresemos al ejemplo del inversionista. De la teoría de distribuciones binomiales, si la


probabilidad de que ocurran algunos eventos en cualquier prueba es p, entonces la
probabilidad x de que ocurran tales eventos fuera de las n pruebas se expresa como

n!
P( x ) = p x (1 − p )
n −x
(ec. 8)[5]
x! ( n − x )!

Por ejemplo, la probabilidad de que 5 de 20 personas sostendrán su empresa realmente


debería caer en la categoría donde 20% de franquicias acapara realmente 25% de
saturación es:

20!
P( x = 5 | p.20 ) = ( 0.25 ) 5 ( 0.75 ) 15 = 0.20233 (ec. 9)
5! ( 20 − 5)!

La probabilidad de las demás situaciones también se puede determinar:

Tabla 3: Probabilidad de Un Inversionista Encontrándose en cada situación dados


x=5 y n=20
Probabilidad a
Evento Probabilidad Probabilidad Posteriori
Probabilidad
(Saturación
a Priori
de la Común de P1 ( p i ) = P ( p i | x = 5)
de Mercado) Situación la Situación
P0(pi) P( x = 5 | p i ) P0 ( p i )
pi P(x=5|pi) P(x=5|pi)*P0(pi) =
P ( x = 5)
0.10 0.05 0.03192 0.001596 0.00959
0.15 0.05 0.10285 0.005142 0.00309
0.20 0.20 0.17456 0.034912 0.20983
0.25 0.20 0.20233 0.040466 0.24321
0.30 0.40 0.17886 0.071544 0.43000
0.35 0.10 0.12720 0.012720 0.07645
0.166381=
Totales 1.00 0.81772 0.99997
P(x=5)

La suma de todas las Probabilidades Comunes proporciona el factor de escalamiento


encontrado en el denominador del Teorema de Bayes y está últimamente relacionado al
tamaño de la muestra. La muestra había sido mayor de 20, el peso relativo entre
conocimiento a priori y evidencia actual sería ponderado mas pesadamente a favor de
este. La columna de Probabilidad a Posteriori de la Tabla 4 muestra los resultados del
teorema Bayesiano para este caso.

Sumando las probabilidades relativas a posteriori para cuotas del mercado >=25% y
aquellas <25%, nuestro inversionista verá que hay una 75% de probabilidad de que su
franquicia ganará dinero -- definitivamente una situación más atractiva en la cual basar
una decisión de inversión.

5
5.3 Redes Bayesianas
5.3.1 Introducción

El concepto de probabilidad condicional es útil. Hay incontables ejemplos en el mundo


real donde la probabilidad de un evento es condicional sobre la probabilidad de un
evento previo. Mientras que las reglas de la suma y del producto de teoría de
probabilidad pueden anticipar este factor de condicionalidad, en muchos casos tales
cálculos son NP-difícil. El prospecto de manejar un escenario con 5 variables al azar
discretas (25-1=31 parámetros discretos) podría ser manejable. Un sistema experto para
monitorear pacientes con 37 variables que resulta en una distribución común de más de
237 parámetros no sería manejable[6].

5.3.2 Definición

Considere un dominio U de n variables, x1,...xn. Cada variable puede ser discreta o


continuo, habiendo un número finito o contable de estados. Dado un subconjunto X de
variables xi donde xi ∈U, si uno puede observar el estado de cada variable en X,
entonces esta observación es llamada una instancia de X y es denotada como

X = p( xi | x1 ... xi −1 , ξ) = p ( xi | Πi , ξ) k X para las observaciones xi = k i , xi ∈ X . El
“espacio conjunto” de U es el conjunto de todas las instancias de U.
 
( )
p X = k X | Y = kY , ξ denota la “densidad de probabilidad generalizada” de que
 
X = p( xi | x1 ... xi −1 , ξ) = p ( xi | Πi , ξ) k X dada Y = kY para una persona con estado
actual de información ξ. p ( X | Y , ξ) entonces denota la "Función de Densidad de
Probabilidad Generalizada " (gpdf) para X, dadas todas las observaciones posibles de
Y. La gpdf común sobre U es la gpdf para U.

Una red Bayesiana de dominio U representa una gpdf común sobre U. Esta
representación consiste de un conjunto de condicionales locales gpdfs combinado con
un conjunto afirmaciones de independencia condicional que permiten la construcción de
una gpdf global de las gpdfs locales. Como se demostró previamente la regla de la
cadena de la probabilidad puede ser usada para afirmar estos valores:

n
p( x1 ,... xn | ξ) = ∏ p( xi | x1 ,... xi −1 , ξ) (ec. 10)
i =1

Una suposición impuesta por la teoría de Redes Bayesianas (e indirectamente por la


Regla del Producto de teoría de probabilidad) es que cada variable
xi , ∏i ⊆{ x1 ,... xi −1 } debe ser un conjunto de variables que presta xi , y { x1 ,... xi −1 }
condicionalmente independiente. De esta manera:

p ( xi | x1 ... xi −1 , ξ) = p ( xi | Πi , ξ) k X (ec. 11)[7]

6
Entonces, una Estructura de Red Bayesiana codifica las afirmaciones de independencia
condicional en la ecuación 10. Entonces esencialmente, una Estructura de Red
Bayesiana Bs “es una gráfica acíclica dirigida tal que (1) cada variable en U corresponde
a un nodo en Bs, y (2) los padres del nodo correspondiente a xi son los nodos
correspondientes a las variables en [Pi]i.”[8]

(
“Una gpdf de red-Bayesiana Bp es la colección de gpdfs locales p xi | ∏i , ξ para )
cada nodo en el dominio.” [9]

5.3.3 Redes Bayesianas Ilustradas

Dada una situación donde hoy podría llover, y mañana podría llover, ¿cuál es la
probabilidad de que llueva en ambos días? Que llueva en dos días consecutivos, no son
eventos independientes con probabilidades aisladas. Si llueve en un día, es más
probable que llueva al siguiente. Resolver este problema involucra determinar la
probabilidad de que llueva hoy, y entonces determinar la probabilidad de que llueva
mañana condicional a la probabilidad de que llueva hoy. Estas son conocidas como
“probabilidades comunes.” Supóngase que P(llueva hoy) = 0.20 y P(llueva mañana
dado que llueve hoy) = 0.70. La probabilidad de tales eventos conjuntos es determinada
por:

P ( E1 , E 2 ) = P ( E1 ) P ( E 2 E1 ) (eq. 12)

que también se puede expresar como:

P ( E1 , E 2 )
P ( E 2 E1 ) = (eq. 13)[10]
P ( E1 )

Resolviendo las probabilidades comunes para todas las eventualidades, los resultados se
pueden expresar en un formato de tabla:

Tabla 4: Probabilidades Común y Marginal de que llueva hoy y


mañana
Llueva No LluevaProbabilidad Marginal
Mañana Mañana de que Llueva Hoy
Llueva hoy 0.14 0.06 0.20
No Llueva hoy 0.16 0.64 0.80
Probabilidad Marginal
0.30 0.70
de que Llueva Mañana

De la tabla, es evidente que la probabilidad común de lluvia en ambos días es 0.14, pero
existe gran parte de otra información que tenía que ser traída al cálculo antes de que
fuera posible una determinación. Con solo dos variables binarias, discretas, se
requirieron cuatro cálculos.

Este mismo escenario se puede expresar usando un Diagrama de Red Bayesiana como
el siguiente (en la Figura 1: “!” es usado para denotar “no”).

7
Figura 1: Una Red Bayesiana que muestra la probabilidad de que llueva

Algo atractivo de las Redes Bayesianas es la eficiencia que solo una rama del árbol
necesita para ser viajada. Realmente solo estamos concernidos con P(E1), P(E2|E1) y
P(E2,E1).

También podemos utilizar la gráfica tanto visualmente como algorítmicamente para


determinar que parámetros son independientes entre sí. En lugar de calcular cuatro
probabilidades comunes, podemos usar la independencia de los parámetros para limitar
nuestros cálculos a dos. Es auto-evidente que las probabilidades de lluvia en el segundo
día que ha llovido en el primero son completamente autónomas de las probabilidades de
lluvia en el segundo día que no ha llovido en el primero.

Al mismo tiempo que acentuar indiferencia paramétrica, las Redes Bayesianas también
proporcionan una representación parsimoniosa de condicionalidad entre relaciones
paramétricas. Mientras que la probabilidad de lluvia hoy y la probabilidad de lluvia
mañana son dos acontecimientos discretos (no puede llover hoy y mañana al mismo
tiempo), existe una relación condicional entre ellos (si hoy llueve, es mas probable que
los sistemas persistentes del tiempo y la humedad residual den lugar a que mañana
llueva). Por esta razón, los bordes dirigidos del gráfico están conectados para demostrar
esta dependencia.

Friedman y Goldszmidt sugieren el mirar las redes Bayesian como una "anecdota".
Ofrecen el ejemplo de una anecdota que contiene cinco variables al azar: " Burglary" , "
Earthquake" , " Alarm" , " Neighbour Call "; , y " Radio Announcement ";. [11] En tal
anecdota, " Burglary" y " Earthquake" son independientes, y " Burglary" y " Radio
Announcement "; son independientes dado "Earthquake." És decir no hay
acontecimiento que efectúe robos y terremotos. También, " Burglary" y " Radio
Announcement"; son independientes dado "Earthquake" –indica que mientras un aviso
de radio pudo resultar de un terremoto, no resultará como una repercusión de un robo.

Debido a la independencia entre estas variables, la probabilidad de P(A,R,E,B) (La


probabilidad común de una alarma, aviso de radio, temblor y robo) puede ser reducido
de

8
P(A,R,E,B)=P(A|R,E,B)*P(R|E,B)*P(E|B)*P(B)

Pasando de 15 parametros a 8:

P(A,R,E,B) = P(A|E,B)*P(R|E)*P(E)*P(B)

Esto significativamente redujo el número de probabilidades comúnes. Esto se puede


representar como una red Bayesiana:

Figura 2: Probabilidades condicionales de una alarma dados los eventos


independientes de un robo (burglary) y un temblor(earthquake).

Usar una red Bayesiana ofrece muchas ventajas sobre los métodos tradicionales para
determinar relaciones causales. La independencia entre variables es fácil de reconocer y
aislar mientras las relaciones condicionales estén claramente delimitadas por un borde
dirigido del gráfico: dos variables son independientes si todas las trayectorias entre ellos
están bloqueadas (dado que los bordes sean direccionales). No todas las probabilidades
comunes necesitan ser calculadas para tomar una decisión; las ramas y las relaciones
extrañas pueden ser ignoradas (Uno puede hacer una predicción de un aviso de radio sin
importar si una alarma suena). Optimizando el gráfico, se puede demostrar que cada
nodo tiene a lo más k padres. Las rutinas algorítmicas requeridas se pueden entonces
correr en O(2kn) en lugar de O(2n) veces. En esencia, el algoritmo puede funcionar en
tiempo lineal (basado en el número de bordes) en vez del tiempo exponencial (basado
en el número de parámetros).[12]

Asociado con cada nodo está un conjunto de distribuciones de probabilidad condicional.


Por ejemplo, el nodo “Alarma” podría tener la siguiente distribución de probabilidad:
[13]

Tabla 5: Distribución de
Probabilidad para el Nodo
Alarma dados los eventos de
"Temblores" y "Robos". (Nota:
“¬” denota “no”)
E B P(A|E,B) P(¬A|E,B)
E B 0.90 0.10
E ¬B 0.20 0.80

9
¬E B 0.90 0.10
¬E ¬B 0.01 0.99

Por ejemplo, debe haber un terremoto y un robo, para que la alarma tenga una
posibilidad de 90% de sonar. Con solo un terremoto y sin robo, sonaría solo en 20% de
los casos. Un robo sin terremoto fijaría la alarma 90% de las veces, y la probabilidad de
una alarma falsa no dado que no hay eventos antecedentes debería solo tener una
probabilidad de 0.1% de las veces. Obviamente, estos valores tendrían que ser
determinados a posteriori.

5.4 Implicaciones Algorítmicas de Redes Bayesianas


Las redes Bayesian son útiles tanto para exploración inferencial de relaciones
previamente indeterminadas entre variables como para descripciones de estas relaciones
en descubrimientos. En el primer caso, el poder computacional se puede aplicar en un
problema. En el segundo caso, para determinar la verosimilitud de lluvia al día siguiente
de un día lluvioso, los datos meteorológicos se pueden introducir en la computadora y la
computadora puede determinar la probabilidad resultante de la red. Este proceso de
descubrimiento de la red es discutido por Friedman & Goldszmidt [14]. Tal proceso es
computacionalmente intensivo y NP-difícil en sus implicaciones algorítmicas. El
beneficio de tal proceso es evidente en la habilidad para describir la red descubierta en
el futuro. Entonces el cálculo de cualquier rama de probabilidad de la red se puede
calcular en tiempo lineal.

Usos Practicos para Redes Bayesianas


AutoClass

La National Aeronautic and Space Administration tiene una gran inversión en


investigación Bayesiana. El centro de investigación Ames de la NASA' está interesado
en la exploración del espacio-profundo y la adquisición de conocimiento. En recopilar
datos de observatorios del espacio-profundo y de exploraciones planetarias, una
imposición de la estructura apriori o patrones esperados es inadecuada. Los
investigadores no siempre saben qué esperar con o aún tener hipótesis para las cuales
probar cuando recopilar tales datos. La inferencia Bayesiana es útil porque permite al
sistema de inferencia construir sus propios sistemas potenciales de entender los datos.
Una vez que cualquier red implícita se descubre dentro de los datos, la yuxtaposición de
esta red contra otros conjuntos de datos permite pruebas rápidas y eficientes de nuevas
teorías e hipótesis.

El proyecto AutoClass es un intento de crear aplicaciones Bayesianas que pueden


interpolar automáticamente datos originales de pruebas interplanetarias, y de
exploraciones del espacio profundo. [15] Un ejemplo gráfico de las capacidades de
AutoClass se exhibe en la Figura 3. Incidentalmente, el código fuente de AutoClass está
disponible tanto en Lisp como en C en una base de Fuente Abierta.

10
Figura 3: Una interpolación AutoClass de datos sin categorías predefinidas. with no
predefined categories. Los datos clasificados son agrupados por el color y la forma. El
área superior se clasifica en las formas verde-azules, el centro en azules, y la parte
inferior en formas rojo-anaranjado-amarillas

Un ejemplo aplicado de las capacidades de AutoClass fue la entrada de los espectros


infrarrojos. Aunque no se sospechara inicialmente de ninguna diferencias entre estos
espectros, AutoClass distinguió con éxito a dos subgrupos de estrellas. [16]

Introducción de Busquedas Heurísticas

La búsqueda de una solución a un problema es usualmente un problema NP-difícil que


resulta en una explosión combinatoria de posibles soluciones a investigar. Este
problema se mejora a menudo con el uso de heurísticas, o subrutinas que hacen
elecciones " inteligentes" a lo largo del árbol de decisión. Un heurístico apropiadamente
definida puede acelerar la búsqueda obviamente eliminando las trayectorias no exitosas
del árbol de búsqueda. Una heurística inadecuada podría eliminar las soluciones
acertadas y dar lugar a soluciones no evidentes.

Las redes Bayesianas pueden reemplazar métodos heurísticos introduciendo un método


donde las probabilidades son actualizadas continuamente durante la búsqueda

Una clase de algoritmos de búsqueda llamada búsqueda Estocástica utiliza lo que se


conoce como procedimiento "Monte-Carlo". Este procedimiento es no determinista y no
garantiza una solución a un problema. Como tal es muy rápido, y el uso repetido de
estos algoritmos agregará evidencia de que no existe una solución aunque nunca prueba
que tal solución no existe.

Acoplando tales procedimientos con el conocimiento de propiedades de la distribución


de la cual se bosquejan los ejemplos del problema puede ser un modo efectivo de
extender la utilidad de estos algorithms" [17] ayudando a enfocarse en áreas de la
búsqueda del árbol no previamente estudiado.

11
Lumiere

Microsoft comenzó a trabajar en 1993 en Lumiere, su proyecto para crear software que
automática e inteligentemente pudiera interactuar con usuarios del software anticipando
las metas y necesidades de estos usuarios.

"Esta habilidad de identificar el foco de atención de un piloto en cualquier momento


durante un vuelo puede proporcionar un enlace esencial a la disposición de apoyo
efectivo de decisión. En particular, la comprensión de las metas comunes de un piloto
experimental se pueden aplicar a seleccionar la presentación de sistemas alternativos y
de pantallas." [19]

El proyecto Lumiere en Microsoft eventualmente dio lugar al "Asistente de Office" con


la introducción de Office 95 de productos de escritorio. [20]

Limitaciones de Redes Bayesianas


A pesar de su poder notable y potencial de dirigir procesos inferenciales, hay algunas
limitaciones y responsabilidades inherentes a las redes Bayesianas

En la revisión del proyecto Lumiere, un problema potencial que casi se reconoce es la


remota posibilidad de que un usuario del sistema pueda querer violar la distribución de
probabilidades sobre las cuales se construye el sistema. Mientras que un sistema de
escritorio de ayuda automatizado que no puede abrazar peticiones inusuales o
inesperadas es meramente frustrante, un sistema de navegación automatizado que no
puede responder a un cierto acontecimiento previamente imprevisto podría poner un
avión y a sus ocupantes en peligro mortal. Mientras que estos sistemas pueden
actualizar sus metas y objetivos basados en distribución a priori de metas y objetivos
entre grupos de la muestra, la posibilidad de que un usuario haga una solicitud de
información nueva de una manera previamente inesperada también debe ser acomodada.

Otros dos problemas son más serios. El primero es la dificultad computacional de


explorar una red previamente desconocida. Para calcular la probabilidad de cualquier
rama de la red, todas las ramas deben ser calculadas. Mientras que la habilidad
resultante para describir la red se puede realizar en tiempo lineal, este proceso del
descubrimiento de la red es una tarea NP-difícil que podría ser demasiado costosa de
efectuar, o imposible dado el número y combinación de variables.

El segundo problema se centra en la calidad y el grado de la creencia a priori usada en el


proceso de inferencia Bayesiana. Una red Bayesiana es solo tan útil como este
conocimiento a priori es confiable. Una expectativa excesivamente optimista o
pesimista de la calidad de esta creencia a priori distorsionará la red completa e
invalidará los resultados. Se relaciona con esta preocupación la selección de la
distribución estadística inducida en el modelado de los datos. La selección del modelo
apropiado de la distribución para describir los datos tiene un efecto notable sobre la
calidad de la red resultante.

12
Conclusiones
Al lado de estas preocupaciones, las redes Bayesian tienen poder increíble de ofrecer
ayuda en una amplia gama de esfuerzos. Apoyan el uso de inferencia probabilística para
actualizar y revisar valores de la creencia. Las redes Bayesianas permiten fácilmente
inferencias cualitativas sin las ineficiencias computacionales de determinaciones
tradicionales de probabilidad común. Al hacer eso, apoyan la inferencia compleja que
modela incluyendo sistemas de toma de decisión racionales, el valor de la información y
el análisis de sensibilidad. Como tal, son útiles para el análisis de la causalidad y por
medio de inducción estadística apoyan una forma de aprendizaje automatizado. Este
aprendizaje puede implicar descubrimiento paramétrico, descubrimiento de red, y
descubrimiento causal de la relación. [21]

En este artículo, discutimos las premisas de redes Bayesiana del Teorema de Bayes y
cómo tal inferencia Bayesiana difiere de tratamientos clásicos de la inferencia
estadística. Las razones, implicaciones y potencial emergente de redes Bayesiana en el
área de Inteligencia Artificial fueron explorados entonces con un foco aplicado que
perfilaba algunas áreas comunes donde los modelos y las redes Bayesianas se están
empleando para abordar problemas de la vida real. Finalmente, examinamos algunas de
las limitaciones de redes Bayesianas.

En lo mejor, tal artículo solo puede ser una foto del estado de la investigación
Bayesiana en un lugar y momento dados. La anchura y los focos eclécticos de los
muchos individuos, grupos y corporaciones investigando este asunto le hace uno de las
áreas verdaderamente dinámicas dentro de la disciplina de la inteligencia artificial.

These concerns aside, Bayesian networks have incredible power to offer assistance in a
wide range of endeavours. They support the use of probabilistic inference to update and
revise belief values. Bayesian networks readily permit qualitative inferences without the
computational inefficiencies of traditional joint probability determinations. In doing so,
they support complex inference modelling including rational decision making systems,
value of information and sensitivity analysis. As such, they are useful for causality
analysis and through statistical induction they support a form of automated learning.
This learning can involve parametric discovery, network discovery, and causal
relationship discovery.[21]

In this paper, we discussed the premises of Bayesian networks from Bayes' Theorem
and how such Bayesian inference differs from classical treatments of statistical
inference. The reasons, implications and emerging potential of Bayesian networks in the
area of Artificial Intelligence were then explored with an applied focus profiling some
current areas where Bayesian networks and models are being employed to address real-
life problems. Finally, we examined some of the limitations of Bayesian networks.

At best, such a paper can only be a snapshot of the state of Bayesian research at a given
time and place. The breadth and eclectic foci of the many individuals, groups and
corporations researching this topic makes it one of the truly dynamic areas within the
discipline of Artificial Intelligence.

13
References
[1]Hopkins, K.D. & G.V. Glass. Basic Statistics for the Behavioral Sciences. Prentice-
Hall Inc., Englewood Cliffs, N.J. 1978. p. 3.

[2]Although this is properly a binomial distribution rather than a normal one, the use of
[sigma] to represent the variability of the sample illustrates the basic point.

[3]cf. Hopkins & Glass, p. 401ff for an example.

[4]Stutz, J. & P. Cheeseman, "A Short Exposition on Bayesian Inference and


Probability." June 1994. National Aeronautic and Space Administration Ames Research
Centre: Computational Sciences Division, Data Learning Group,
[5]Morgan, Bruce W. An Introduction to Bayesian Statistical Decision Processes.
Prentice-Hall Inc., Englewood Cliffs, N.J. 1968. p. 15.

[6]Friedman, N. & M. Goldszmidt, "Learning Bayesian Network from Data." SRI


International. 1998. http://www.erg.sri.com/people/moises/tutorial/index.htm

[7]Heckerman, D. & D. Geiger. "Learning Bayesian Networks. Microsoft Research:


Redmond WA. December 1994. p. 3.
http://www.research.microsoft.com/research/dtg/heckerma/TR-95-02.htm

[8]Heckerman & Geiger. p. 3.

[9]Heckerman & Geiger. p. 3.

[10]Winkler, Robert L. An Introduction to Bayesian Inference and Decision. Holt,


Rinehart and Winston, Onc., Toronto. 1972.

[11]Friedman & Goldszmidt, http://www.erg.sri.com/people/moises/tutorial/sld009.htm

[12]Friedman & Goldszmidt, http://www.erg.sri.com/people/moises/tutorial/sld016.htm

[13]Friedman & Goldszmidt, http://www.erg.sri.com/people/moises/tutorial/sld020.htm

[14]Friedman & Goldszmidt, http://www.erg.sri.com/people/moises/tutorial

[15] Stutz, J., W. Taylor & P. Cheeseman


"AutoClass C - General Information" NASA, Ames Research Center: 1998. http://ic-
www.arc.nasa.gov/ic/projects/bayes-group/autoclass/autoclass-c-
program.html#AutoClass C

[16] http://ic-www.arc.nasa.gov/ic/projects/bayes-group/autoclass/index.html

[17]Stewart, H. & Masjedizadeh, N.


"Bayesian Search" NASA, Ames Research Center: 1998.
http://ic.arc.nasa.gov/ic/projects/bayes-search.html

14
[18] Cooper, G., E. Horvitz, & R. Curry
"Conceptual Design of Goal Understanding Systems: Investigation of Temporal
Reasoning Under Uncertainty" Decision Theory & Adaptive Systems Group, Microsoft
Research. Microsoft Corp. Redmond, WA: 1998.
http://research.microsoft.com/research/dtg/horvitz/goal.htm

[19] Horvitz, E.
"Lumiere Project: Bayesian Reasoning for Automated Assistance" Decision Theory &
Adaptive Systems Group, Microsoft Research. Microsoft Corp. Redmond, WA: 1998.
http://research.microsoft.com/research/dtg/horvitz/lum.htm

[20] Heckerman, D. & E. Horvitz


"Inferring Informational Goals from Free-Text Queries: A Bayesian Approach"
Decision Theory & Adaptive Systems Group, Microsoft Research. Microsoft Corp.
Redmond, WA: 1998. http://research.microsoft.com/research/dtg/horvitz/aw.htm

[21] http://www.erg.sri.com/people/moises/tutorial/sld029.htm

15

También podría gustarte