Está en la página 1de 31

INFERENCIA BAYESIANA

UNIVERSIDAD NACIONAL TECNOLGICA DE LIMA


SUR
CARRERA DE INGENIERIA DE SISTEMAS

MONOGRAFA
INFERENCIA BAYESIANA

Monografia presentada en
cumplimiento parcial del curso de

Optimizacin de Sistemas I.

Autor(es) : Coica Gonzales, Ricardo.


Chavez Quiroga , Jorge.
Escobar Soto, Jordy.
Flores Sols, Joe Johan.
Huari Zanca, Jos Junior.
La Madrid Martnez, Ayrton.
Mamani Apaza, Merilyn
Rafael Larrea, Diego.
Ramis, Jess.
Rodas Cubas, Ander.
Vicente Paucar, Karla.
Zarate Gmez, Moiss.

Docente : Hernn Cusi

30 de Enero - 2017

OPTIMIZACION DE SISTEMAS I 1
INFERENCIA BAYESIANA

INDICE

Inferencia bayesiana...................................................................................... 3
Introduccin:............................................................................................... 3
1.2. Ejemplo Introductor:............................................................................. 4
DEFINICION:................................................................................................ 5
Teorema de Bayes:................................................................................... 6
El principio de longitud de descripcin mnima:.......................................7
Redes Bayesianas.......................................................................................... 9
2.1 RED BAYESIANA APLIACADA EN NETICA..............................................10
2.1. Estimacin........................................................................................ 11
2.2. Estimacin estructural..........................................................................11
2.3. Estimacin paramtrica........................................................................15
2.4 USO................................................................................................... 18
Aplicaciones:............................................................................................. 19
El mtodo bayesiano en la investigacin mdica......................................19
El mtodo bayesiano al anlisis de competitividad:...........................................21
El mtodo bayesiano aplicado a la toma de decisiones......................................23

OPTIMIZACION DE SISTEMAS I 2
INFERENCIA BAYESIANA

Inferencia bayesiana

Introduccin:

En 1763 se public el artculo An essay towards solving a problem in the


doctrine of chances , (Un ensayo hacia la solucin de problemas en la
disciplina del azar. T. del Ed.) Escrito por el reverendo Thomas Bayes (1701-
1761). En dicho artculo, Bayes present una sencilla demostracin de la teora
de la probabilidad cuyas consecuencias difcilmente poda prever. Con esa
demostracin, Bayes estableci los principios de la estadstica bayesiana, la
cual despus cay en el olvido y fue marginada por muchos aos, hasta su
resurgimiento y utilizacin para resolver todo tipo de problemas, desde la
interpretacin de mensajes en la Segunda Guerra Mundial hasta la actual
decodificacin del material gentico.

Bayes ya haba muerto cuando su famoso artculo fue enviado por su amigo
Richard Price a la revista Philosophical Transactions. Algunos estudiosos
todava debaten si Price nicamente envi el artculo o tambin tuvo alguna
intervencin como autor.

El de Bayes es un teorema vlido del "clculo de probabilidades", lo que hoy


llamamos "Teora Matemtica de la Probabilidad" (TMP). Este teorema tambin
es conocido como teorema de la Probabilidad Inversa, pues explica cmo
obtener la probabilidad de un evento A dada la informacin B calculndola al
revs, esto es, estableciendo la probabilidad a priori del evento A, y la
probabilidad de que hubiese ocurrido el evento B dado el evento A.

Con las herramientas y la elaboracin de la TMP actuales el teorema de Bayes


es muy sencillo de probar. De hecho Bayes prob una versin particular que se
ha generalizado a espacios abstractos usando medidas de probabilidad. En
trminos de la TMP, la historia del teorema de Bayes bsicamente termina ah,
en un teorema sencillo. Pero como es de uso comn en la TMP hasta nuestros
das, Bayes tambin quiso "interpretar" el teorema, es decir, explicarlo en
trminos de una posible interpretacin de la teora.
Pongamos un ejemplo: Cul es la probabilidad P de que maana martes
llueva en la ciudad de Lima? La "lluvia de maana martes en la ciudad de
Lima" es el evento A. Lo que sabemos del evento, la informacin que
obtengamos, como los datos meteorolgicos actuales y pasados (del pasado

OPTIMIZACION DE SISTEMAS I 3
INFERENCIA BAYESIANA

inmediato y mediato), la humedad, el clima regional, etctera, se representan


con B.
La propuesta de Bayes es calcular cul es la probabilidad de que llueva
maana martes dada la informacin de B. Eso es hacer estadstica: tenemos
unos datos, y dado que tenemos esos datos queremos calcular la probabilidad
de algn evento.

1.2. Ejemplo Introductor:

Supongamos que los meteorlogos le asignan al evento A una probabilidad de


5%. Pero, qu quiere decir eso? En otras reas de estadstica, en la
estadstica frecuentista, eso se interpreta en trminos de muestras repetidas.
Se dice: "Si tomas muchas muestras del evento A, el porcentaje tal de los
casos caer en tal o cual intervalo". Pero este problema, el de la lluvia, no
podemos tomar la muestra porque slo hay un "maana martes" nico e
irrepetible. Slo de ciertos aspectos podemos tomar datos y pensar que
podemos repetir una muestra. El argumento frecuentista se aplica en esos
casos, pero en ste, qu quiere decir que la probabilidad de que llueva
maana es del 5%?
La teora Bayesiana establece, ese nmero (la probabilidad) no representa una
frecuencia, sino que es una medida de lo que conocemos nosotros, una
medida de nuestra incertidumbre y de nuestra certeza. Si al evento "llueve
maana martes en la ciudad de Guanajuato" le asignamos una probabilidad de
5% dados los datos que tenemos, lo que significa es que "nosotros" tenemos
ms o menos la certeza de que no va a llover maana, porque es muy poco
probable. Entonces lo que mide la estadstica bayesiana es la certidumbre y la
incertidumbre, la seguridad de quien est esperando el evento, y no solamente
"propiedades" del evento en s. Esto significa tambin que la probabilidad es
una opinin que se puede volver una apuesta. Es una opinin de un "agente"
que puede ser una persona o, en nuestro ejemplo, el Sistema Meteorolgico
Nacional. Esto es, la probabilidad se refiere a un agente acerca de un evento,
lo que el agente sabe acerca del evento.

La teora bayesiana fue desarrollada en el siglo XX al axiomatizar sus principios


con los trabajos de De Finetti, Ramsey y Savage, y posteriormente con su
fundamentacin filosfica, dentro de la epistemologa moderna. La idea
fundamental, sugerida originalmente por Keynes, es interpretar a la
probabilidad como un "grado de conocimiento", no como una frecuencia. Esto
fue formalizado al identificar los grados de incertidumbre como un sistema de
Apuestas, justo para un "agente" que establece la probabilidad a priori de A, las
condiciones B dado que ocurre el evento A, y finalmente calcula la probabilidad
P de que ocurra el evento A dada la informacin B.

OPTIMIZACION DE SISTEMAS I 4
INFERENCIA BAYESIANA

La publicacin del artculo de Bayes, a sus 250 aos, nos da un ejemplo


contundente de como una idea simple, pero autntica y fundamentalmente
diferente, puede ser seminal y cimentar el desarrollo de toda una disciplina y
escuela de pensamiento, como lo es la estadstica bayesiana moderna. Sin
duda es uno de los artculos fundamentales de la estadstica y un evento a
celebrar en el Ao Internacional de la Estadstica.

DEFINICION:

La inferencia bayesiana es un tipo de inferencia estadstica en la que las


evidencias u observaciones se emplean para actualizar o inferir la
probabilidad de que una hiptesis pueda ser cierta.
El nombre bayesiana proviene del uso frecuente que se hace del teorema
de Bayes durante el proceso de inferencia. El teorema de Bayes se ha derivado

del trabajo realizado por el reverendo Thomas Bayes.


El razonamiento bayesiano proporciona un enfoque probabilstico a la
inferencia. Est basado en la suposicin de que las cantidad de inters son
gobernadas por distribuciones de probabilidad y que se pueden tomar
decisiones ptimas razonando sobre estas probabilidades junto con los datos
obtenidos. Este enfoque est siendo utilizado en multitud de campos de

OPTIMIZACION DE SISTEMAS I 5
INFERENCIA BAYESIANA

investigacin, de los que cabe destacar la robtica y la visin computacional,


ambas relacionadas con el contenido de esta tesis.
La inferencia bayesiana utiliza aspectos del mtodo cientfico, que implica
recolectar evidencia que se considera consistente o inconsistente con
una hiptesis dada. A medida que la evidencia se acumula, el grado de
creencia en una hiptesis se va modificando. Con evidencia suficiente, a
menudo podr hacerse muy alto o muy bajo.
As, los que sostienen la inferencia bayesiana dicen que puede ser utilizada
para discriminar entre hiptesis en conflicto: las hiptesis con un grado de
creencia muy alto deben ser aceptadas como verdaderas y las que tienen
un grado de creencia muy bajo deben ser rechazadas como falsas. Sin
embargo, los detractores dicen que este mtodo de inferencia puede estar
Afectado por un prejuicio debido a las creencias iniciales que se deben
sostener antes de comenzar a recolectar cualquier evidencia.
Las herramientas utilizadas en el desarrollo de esta tesis: el teorema de Bayes
y el principio de longitud de descripcin mnima.

Teorema de Bayes:

A menudo nos surgen problemas en los cuales estamos interesados en


determinar la mejor hiptesis H, dados los datos que hemos observado D. Una
forma ms correcta de expresar esto es decir que buscamos la hiptesis H ms
probable, dado los datos observados D ms un conocimiento inicial sobre las
probabilidades a priori de H. El teorema de Bayes nos proporciona un mtodo
directo para calcular estas probabilidades.
El teorema de Bayes se define con la siguiente ecuacin:

Vamos a comentar el significado de cada trmino:


P(A1) es el conocimiento inicial que tenemos sobre que la hiptesis A1 sea la
correcta. Se le suele denominar la probabilidad a priori de A1.
P(B) se define de forma similar, pero esta vez sobre los datos B.
P(B|A1) denota la probabilidad de observar los datos B dado que tenemos la
hiptesis A1. Se le suele denominar verosimilitud.
P(A1|B) es la probabilidad a posteriori que la hiptesis A1 tiene, dados los
datos observados B.

OPTIMIZACION DE SISTEMAS I 6
INFERENCIA BAYESIANA

El principio de longitud de descripcin mnima:

El principio de longitud de descripcin mnima (minimum descripcin length


(MDL)) puede ser resumido como ``elegir la explicacin ms corta a los datos
observados''. Esta ntimamente relacionada con el criterio MAP antes
comentado, incorporando conceptos bsicos de teora de la informacin.
Retomando la definicin de hMAP:

y, de forma

equivalente, expresando esta ecuacin en trminos de la maximizacin de log 2:

O alternativamente, minimizando el negativo de esta cantidad:

Esta ltima ecuacin puede ser interpretada como que se prefieren hiptesis
cortas. Cada uno de estos trminos se puede entender como la longitud de
descripcin de las distribuciones bajo una codificacin ptima. No vamos a
entrar en comentar los trminos de teora de informacin. El principio MDL
recomienda la eleccin de las hiptesis que minimizan estas dos longitudes de
descripcin. As, este principio se puede definir como elegir la
hiptesis hMDL dada:

Siendo LCi la longitud de descripcin del mensaje i con respecto a C, que es el


nmero de bits requeridos para codificar el mensaje i utilizando el cdigo C. En
el caso de que C2 sea la codificacin ptima de las hiptesis (h) y C1 sea la
codificacin ptima de (D|h), entonces hMDL=hMAP.

OPTIMIZACION DE SISTEMAS I 7
INFERENCIA BAYESIANA

Redes Bayesianas

Las redes bayesianas son una representacin grfica de dependencias para


razonamiento probabilstico, en la cual los nodos representan variables
aleatorias y los arcos representan relaciones de dependencia directa entre las
variables.

OPTIMIZACION DE SISTEMAS I 8
INFERENCIA BAYESIANA

La Figura muestra un ejemplo hipottico de una red bayesiana (RB) que


Representa cierto conocimiento sobre medicina. En este caso, los nodos
representan enfermedades, sntomas y factores que causan algunas
enfermedades.

En una Red Bayesiana todas las relaciones de independencia condicional


representadas en el grafo corresponden a relaciones de independencia en la
distribucin de probabilidad. Dichas independencias simplifican la
representacin del conocimiento (menos parmetros) y el razonamiento
(propagacin de las probabilidades). Una red bayesiana representa en forma
grfica las dependencias e independencias entre variables aleatorias, en
particular las independencias condicionales.

Dado que los contornos (padres) de cada nodo especifican la estructura,


Mediante las probabilidades condicionales de dichos nodos podemos
especificar tambin las probabilidades requeridas. Aplicando la regla de la
cadena y las Independencias condicionales, se puede verificar que con dichas
probabilidades Se puede calcular la probabilidad conjunta. En general, la
probabilidad conjunta se especifica por el producto de las probabilidades de
cada variable dados sus padres:

OPTIMIZACION DE SISTEMAS I 9
INFERENCIA BAYESIANA

Probabilidad a priori de Comida, P(C);


Probabilidad de Tifoidea dada Comida, P(T j C);
Probabilidad de Fiebre dada Tifoidea y Gripe(F jT;G)

2.1 RED BAYESIANA APLIACADA EN NETICA

Existen varios programas informticos que permiten crear y utilizar redes


bayesianas. Algunos de ellos han sido desarrollados especficamente para
generar este tipo de modelos (como Netica [Norsys Software Corp.], Elvira,
Ergo [Noetic Systems Inc.] o Hugin [Hugin Expert A/S]) mientras que en otros
casos han sido generados al amparo de programas estadsticos generales
como son el caso de TETRAD, Neural Conection (SPSS Inc.), Bayes Net
Toolbox-BNT (Matlab) o el paquete deal para R. Para ms informacin sobre
programas destinados a la estimacin de redes bayesianas se pueden
consultar los trabajos de Cowell, Dawid, Lauritzen, Spiegelhalter (1999) y Korb
y Nicholson (2004). En este artculo se va a utilizar la versin 4.16 de Netica
para Windows (2000/XP/Vista/7) que se puede descargar desde la pgina web
de Norsys Software Corp. (http://www.norsys.com/download.html). El archivo
Netica_Win.exe que podemos conseguir desde la citada pgina es un
autoejecutable comprimido con WinZip que desencadena automticamente el
proceso de descompresin al hacer doble clic sobre l. El autoejecutable
crear, por defecto, una carpeta llamada Netica(nmero de versin) en la
unidad C: de nuestro equipo donde podremos encontrar todos los archivos
necesarios para hacer funcionar el programa. Para arrancar Netica tendremos

OPTIMIZACION DE SISTEMAS I 10
INFERENCIA BAYESIANA

que hacer doble clic en el archivo Netica.exe que hay en la carpeta creada
anteriormente.

2.1. Estimacin.

El primer paso que hay que dar para construir una red bayesiana pasa por
especificar su estructura grfica (Cowel et al., 1999). En este sentido,
podramos decir que las redes bayesianas siguen un proceso de construccin
parecido al que hay que seguir cuando se generan modelos de ecuaciones
estructurales (Batista y Coenders, 2000). El hecho de que la estimacin
estructural sea un pre-requisito, en comparacin con la estimacin
paramtrica, para generar un modelo de red bayesiana ha hecho cuestionar,
por ejemplo, parte de la investigacin sobre juicios y/o aprendizaje causal
publicados en la ltima mitad de siglo (Lagnado, Waldmann, Hagmayer y
Sloman, 2007). Existen dos procedimientos genricos para crear redes
bayesianas (Mani, McDermmott, y Valtorta, 1997): uno basado en rutinas
automticas, donde se ponen en funcionamiento cierto nmero de algoritmos
que son capaces de identificar la estructura grfica subyacente en un conjunto
de datos; y otro centrado en el juicio de expertos, donde se utiliza el
conocimiento que un grupo de expertos tiene sobre un dominio particular para
generar el modelo estadstico. En este trabajo no vamos a tratar ningn
procedimiento automtico de generacin de redes bayesianas propiamente
dicho. Ms bien, se describir la forma de crear estructuras y de estimar
parmetros manualmente y de manera rpida a partir de una base de datos. Se
recomienda a los lectores interesados en estos procedimientos automticos a
profundizar en el estudio de las referencias que se citan ms abajo.

2.2. Estimacin estructural

Existen numerosos procedimientos automticos (p. e., algoritmos PC y K2)


destinados a generar grafos dirigidos acclicos destinados a convertirse en
redes bayesianas (p. e., Cooper y Herskovits, 1992; Cowell et al.,1999;
Glymour, 2001; Gopnik et al., 2004; Herskovits y Dagher, 1997; Scheines,
Spirtes, Glymour, Meek, y Richardson, 2005; Spirtes, Glymour, y Scheines,
2000). Sin embargo, Netica no incorpora ninguno de estos procedimientos
automticos de estimacin estructural. Lo nico que podemos hacer con
Netica, como se describir ms abajo, es generar automticamente un conjunto
de nodos o variables con sus respectivos niveles o estados para,
posteriormente, especificar manualmente la estructura grfica. As, partiendo
del juicio de expertos en la materia a trabajar, o tomando como base estudios
previos, podemos generar una estructura grfica a partir de una base de datos.
En este sentido, el trabajo de Nadkarni y Shenoy (2004) describe un
procedimiento relativamente sencillo para construir estructuras causales
bayesianas a partir del juicio de expertos. Consideremos el siguiente caso
hipottico para construir nuestra red bayesiana.

OPTIMIZACION DE SISTEMAS I 11
INFERENCIA BAYESIANA

Asumamos que trabajamos en una clnica especializada en el


diagnstico y tratamiento de procesos gripales y que solemos
trabajar, de manera genrica, con dos tipos de enfermedades. La
gripe A (o virus H1N1) es una enfermedad poco corriente (un
22,727% de la poblacin la contrae cada ao) mientras que la gripe
comn es ms frecuente (supongamos que el resto de los casos que
no son gripe A son gripe comn). El dolor de cabeza y los problemas
respiratorios estn asociados con ambas enfermedades. El dolor de
cabeza est presente en el 88,89% de los casos de la gripe comn
mientras que este sntoma est nicamente presente en el 66,67%
de los casos que son diagnosticados como gripe A. Adicionalmente,
los problemas respiratorios no estn presentes en la mayora de los
casos de la gripe comn (94,44%) mientras que estn presentes en la
mayora de los casos en que se ha contrado el virus de la gripe A (en
el 83,33% de los casos). Cul es la probabilidad de que una persona
que tenga dolor de cabeza haya contrado la gripe comn? Cul es la
probabilidad de que una persona haya contrado la gripe comn si
tiene dolor de cabeza y sufre problemas respiratorios?
Para modelar este problema se podra generar una red bayesiana divergente
(ver Figura 1), tambin llamado modelo de causa comn, donde hubiese una
variable que representase el tipo de enfermedad con dos posibles estados
(gripe comn y gripe A) y dos variables que representasen a los sntomas dolor
de cabeza y problemas respiratorios (ambas variables con dos posibles
estados: S y No).

Para generar esta estructura de red bayesiana con Netica tendramos que
proceder del siguiente modo.
Generamos una nueva red utilizando el comando File New Network del
men principal o, alternativamente, presionando simultneamente las teclas
Control y N (algunos de los comandos ms usuales se encuentra en forma
de iconos bajo el men principal pero, dado que el uso de estos iconos es ms
sencillo e intuitivo, aqu slo se describirn los pasos haciendo referencia al
men principal y a los comandos abreviados de combinacin de teclas). Hecho
esto, seleccionamos la opcin Modify Add Nature Node o,
alternativamente, presionamos la tecla F9. Seguidamente, hacemos clic con

OPTIMIZACION DE SISTEMAS I 12
INFERENCIA BAYESIANA

el botn izquierdo del ratn en el lugar donde deseemos crear nuestra variable.
La variable creada, por defecto, tiene como nombre A y un estado o nivel
llamado state0. Para modificar las propiedades del nodo hacemos doble clic
sobre l con el botn izquierdo del ratn. En el cuadro de dilogo que nos
aparece (Figura 2) podemos poner el nombre del nodo (Name) donde no se
admiten ciertos tipos de caracteres como las tildes o los smbolos de
interrogacin y tampoco espacios. Se sugiere utilizar el guin bajo para separar
diferentes palabras cuando nombremos una variable. En la opcin Title" s que
se pueden aadir ms variedad de caracteres. La diferencia entre uno y otro
campo es que el primero es utilizado por el programa para ejecutar rutinas
mientras que el segundo se utilizar para representar elegantemente la
estructura grfica.

Supongamos que queremos crear el nodo Dolor de Cabeza; se sugiere


escribir en la opcin Name el texto Dolor_de_Cabeza mientras que en el
cuadro de texto Title" se podra escribir Dolor de Cabeza. En el cuadro de
texto desplegable llamado State escribimos SI y pulsamos el botn New
para generar otro estado. Ahora escribimos NO y pulsamos en el botn
Okay. Repetimos el mismo procedimiento para generar los nodos
Enfermedad y Problemas Respiratorios. Hay que tener en cuenta que
tampoco estn permitidos los espacios al definir los estados o niveles de las
variables por lo que se sugiere utilizar el guin bajo. Una vez creados los nodos
que representarn las variables estableceremos los enlaces entre las variables.
Para ello, hacemos clic en la opcin Modify Add Link o presionamos la
tecla F12. A continuacin, hacemos clic en la variable de origen, o madre,
(por ejemplo, en Enfermedad) y luego sobre la variable de destino, o hija,

OPTIMIZACION DE SISTEMAS I 13
INFERENCIA BAYESIANA

del enlace (por ejemplo, en Dolor de Cabeza). Se repite el procedimiento para


el otro enlace hasta tener una estructura como la que aparece en la Figura 3.

Cuando disponemos una base de datos que contiene un conjunto de casos


para cada una de las variables que queremos modelar existe un procedimiento
ms rpido para generar los nodos. Aunque posteriormente tendremos que
crear los enlaces manualmente, la definicin de los nodos con sus respectivos
estados, se puede crear de manera mecnica. Consideremos que disponemos
de la base de datos que aparece en la Tabla 1, para generar nodos de manera
automtica hay que proceder del siguiente modo.

OPTIMIZACION DE SISTEMAS I 14
INFERENCIA BAYESIANA

En un archivo nuevo accedemos al comando Cases Add Case File


Nodes y hacemos clic sobre l. Aparecer un cuadro de dilogo titulado
Case file to obtain nodes from. En este momento tendremos que especificar
un archivo que contenga nuestra base de datos. Netica es capaz de leer
archivos de texto plano separado por tabulaciones (.txt), archivos de Excel (.xls
o .xlsx) y un tipo de archivo propio de Netica (.cas) entre otros formatos. Al
hacer doble clic sobre el archivo que contiene los datos que aparecen en la
Tabla 1 aparecern cuatro nodos en nuestra nueva red. A continuacin habr
que crear los enlaces entre las variables como se ha descrito anteriormente
para obtener una estructura divergente.

2.3. Estimacin paramtrica

De igual manera a como ocurre con la estimacin estructural, la estimacin de


los parmetros de una red bayesiana puede hacerse automticamente o a
partir del juicio de expertos. Existen diversos algoritmos como el CB (Mani et
al., 1997), el ELR (Greiner, Su, Shen, y Zhou, 2005; Greiner y Zhou, 2002;
Shen, Su, Greiner, Musilek, y Cheng, 2003) o el EM (Cowell et al., 1999) que
han sido diseados para estimar los parmetros de una red bayesiana
atendiendo a diferentes condicionantes estadsticos. Netica incorpora tres
algoritmos diferentes para estimar los parmetros de una red bayesiana: un
mtodo basado en la frecuencia relativa conjunta, el algoritmo EM y un
algoritmo que evala la reduccin del gradiente de aprendizaje (similar a los
implementados en las Redes Neurales Artificiales que llevan a cabo
computaciones del tipo back propagation). En este trabajo se va a explicar
cmo utilizar el mtodo de estimacin basado en la frecuencia relativa ya que
es el ms recomendable en casos en los que no se presuponen variables
latentes y no hay una alta presencia de casos perdidos.
La versin ms sencilla del algoritmo de mxima verosimilitud basado en las
frecuencias relativas (conjuntas) queda expresado matemticamente con la
ecuacin

donde ( ) (i) n x se refiere al nmero de casos que contiene la base de datos


en los que las variables X (i) toman el valor (i) x y ( , ) i (i) n x x es el
nmero de casos en que i i X = x y (i) (i) X x = . No obstante, el uso de este
modelo de estimacin puede dar lugar a dos tipos de problemas. Por un lado,
podra generar estimaciones no definidas que se producen cuando alguna

OPTIMIZACION DE SISTEMAS I 15
INFERENCIA BAYESIANA

combinacin particular de estados de variables no est presente y, por otro


lado, cabra la posibilidad de incurrir en estimaciones sobre ajustadas que
generaran parmetros sesgados en el caso de que haya combinaciones de
estados en las variables que estn su representadas o sobre-representadas.
Por ello, Netica usa una funcin que introduce un factor de correccin en la
ecuacin (1) basado en la Ley de la Sucesin de Laplace (Morales, 2006; Ng y
Jordan, 2002) y que dejara la ecuacin del siguiente modo:

donde | Xi | se refiere al nmero de estados que tiene la variable Xi .


La estimacin de probabilidades basadas en el juicio de expertos es, en la
mayora de los casos, un proceso subjetivo (Nadkarni y Shenoy, 2004) y
consiste en rellenar tablas de probabilidad condicional. Por ejemplo, Das (2004)
desarroll un mtodo para ayudar a los expertos humanos a estimar las
probabilidades necesarias para parametrizar tablas de probabilidad condicional
teniendo en cuenta los sesgos sistemticos que se comenten al evaluar
probabilidades (Kahneman, 2003; Kahneman, Slovic, y Tversky, 1982;
Kahneman y Tversky, 1973; Tversky y Kahneman, 1974). Otra opcin para
parametrizar un modelo de red bayesiana podra ser utilizar resultados de
investigaciones previas donde estuvieron involucradas las variables de nuestra
red. Consideremos los datos introducidos en el ejemplo anterior y veamos
cmo se ubican los parmetros del modelo en una red bayesiana.
En primer lugar parametrizaremos la variable Enfermedad. Para ello,
la seleccionaremos en el grafo creado en la seccin anterior haciendo
clic sobre ella con el botn izquierdo del ratn. A continuacin haremos
clic en la opcin Table View/Edit o presionaremos la tecla Control
y T simultneamente. Nos aparecer un cuadro de dilogo que
contiene una tabla con una fila y dos columnas. Las columnas son para
indicar la probabilidad de ocurrencia de las enfermedades definidas por
los estados de la variable. Dado que el ejemplo expuesto
anteriormente indicaba que la probabilidad de contraer la gripe A era
del 22,727%, insertaremos este dato en la celda correspondiente. Bajo
el estado correspondiente a la gripe comn escribiremos 77,273 al ser
el nmero que al sumarlo al anterior dara como resultado el 100%
(Figura 4). Pulsamos en la tecla Okay.

OPTIMIZACION DE SISTEMAS I 16
INFERENCIA BAYESIANA

A continuacin editaremos del mismo modo la tabla de probabilidad condicional


del nodo Problemas Respiratorios. En este caso la tabla es ligeramente ms
compleja ya que tiene tres columnas y tres filas. En la primera columna
aparecern los estados de la variable Enfermedad (gripe A y gripe comn)
mientras que en la columna dos y tres aparecern los posibles estados que
puede asumir la variable Problemas respiratorios. Cada celda de la tabla de
probabilidad condicional indica la probabilidad de que la variable Problemas
Respiratorios tome un valor concreto (S o No) bajo la condicin de que la
variable Enfermedad tome un valor concreto. Ya que el problema especifica
que la probabilidad de sufrir problemas respiratorios dado que se sufre la gripe
comn es del 83,33% [p(Problemas Respiratorios = S | Enfermedad = Gripe A)
= 0,8333] escribiremos este valor en la casilla donde coinciden estos posibles
estados de las variables. En la casilla vaca de la fila escribiremos el valor que
al sumarlo a ste anterior de cmo resultado 100. De este modo podemos
parametrizar la fila que nos queda y el nodo referido al dolor de cabeza (Figura
5).

Si queremos que Netica parametrize todas las tablas de probabilidad


condicional que contiene nuestra red a partir de una base de datos podemos
proceder del siguiente modo.
Hacemos clic en el comando Cases Incorp Case File. En el cuadro de
dilogo que aparece se nos requiere que especifiquemos un archivo que
contenga nuestra base de datos. La seleccionamos y aceptamos las opciones

OPTIMIZACION DE SISTEMAS I 17
INFERENCIA BAYESIANA

que nos dan por defecto. Una vez hecho esto, cada uno de los nodos de la red
estarn parametrizados con base en el mtodo de estimacin mximoverosimil
basado en la frecuencia y corregido con la Ley de la Sucesin de Laplace
descrito anteriormente. Para ver las tablas de probabilidad condicional
podemos utilizar el comando anteriormente mencionado o presionar
simultneamente las teclas Control y T.

2.4 USO

Antes de poder usar nuestra red para solucionar las preguntas que nos
planteaba el ejemplo expuesto con anterioridad necesitamos compilar el
modelo para que se ponga a funcionar en modo de inferencia. El proceso de
compilacin consiste en generar una distribucin previa de las probabilidades
asociadas a cada uno de los estados de cada variable utilizando el Teorema de
la Probabilidad Total (Martnez, Martnez y Martnez, 2002; Serrano, 2003).
Este teorema establece que si disponemos de un conjunto mutuamente
excluyente de eventos } ={A1 ,A2,A3 ,, An} cuyas probabilidades suman la
unidad, entonces la probabilidad arbitraria de un evento B vendra definida por
la expresin

Para compilar nuestra red bayesiana tendremos que hacer clic en el comando
Network Compile. Una vez hecho esto se observar que aparecen barras
de color oscuro al lado de cada estado en cada variable precedidas por un
valor (Figura 6). Las barras son una representacin grfica de la probabilidad
previa estimada para cada estado. Por ejemplo, lo ms probable que est
sucediendo a priori, sin conocer ninguna otra informacin sobre el paciente,
cuando una persona llega a nuestra consulta es que est sufriendo algn tipo
de gripe comn como se puede apreciar en su probabilidad asociada en el
nodo Enfermedad (77,3% de posibilidades).

OPTIMIZACION DE SISTEMAS I 18
INFERENCIA BAYESIANA

Sin embargo, si, como plantea el ejemplo anterior, el paciente nos dice que
ha experimentado dolores de cabeza en los dos ltimos das podramos
estimar la probabilidad de que esa persona sufra gripe comn o gripe A.
Para mostrarle esta evidencia al modelo, nicamente tenemos que hacer
clic con el botn izquierdo del ratn sobre el estado S de la variable
Dolor de Cabeza (diremos que la red bayesiana ha sido instanciada). Al
hacer esto, la probabilidad de este estado pasar a 100 y el resto de
probabilidades del modelo se actualizarn (Figura 7). En este caso, ante esta
nueva evidencia, la probabilidad de que el paciente sufra gripe comn habr
aumentado hasta el 0,819.

No obstante, imaginemos que a lo largo de la consulta descubrimos que el


paciente tiene serios problemas para respirar. En este caso, al introducir
esta nueva evidencia en el modelo la enfermedad ms probable para
nuestro paciente ficticio ha pasado a ser la gripe A con un 76,8% de
probabilidad (Figura 8).

2.5 Validacin

Tras haber creado nuestra red bayesiana tenemos la posibilidad de evaluar el


grado en que su comportamiento se ajusta a un conjunto de datos. Por lo
general, se suelen llevar a cabo estudios de validez cruzada. Esto es, se

OPTIMIZACION DE SISTEMAS I 19
INFERENCIA BAYESIANA

estima el modelo con una porcin aleatoria de la muestra, por lo general del
70% o el 80%, y seguidamente se testa el modelo con el 30% o 20% restante
respectivamente. En la medida en que el modelo se ajusta a este nuevo
conjunto de datos podramos decir que tenemos una evidencia sobre su
validez. Por lo general, los estadsticos que genera Netica son aplicables a
variables individuales y, aunque su interpretacin se puede entender en
trminos globales, estn referidos a la bondad de ajuste de una variable dentro
del modelo.
Netica permite estimar tres estadsticos que evalan el grado de ajuste del
modelo en comparacin con un conjunto de datos nuevos: la prdida
logartmica, la prdida cuadrtica y la compensacin esfrica (Lpez y Garca,
2011a; Pearl, 1978). La prdida logartmica oscila entre cero e infinito indicando
cero la mejor bondad de ajuste. Por su parte, la prdida cuadrtica (o brier
score) oscila entre cero y dos donde cero correspondera con una mejor
ejecucin. Por ltimo, la compensacin esfrica est acotada entre cero y uno,
indicando uno un ajuste perfecto entre el modelo y los datos.
Netica tambin genera una matriz de confusin o tabla de clasificacin donde
se comparan las predicciones hechas por el modelo con lo realmente
observado. As, la matriz contendr tantas filas y columnas como estados tenga
el nodo que est siendo objeto del anlisis. En las casillas de la matriz se
representan el nmero de casos en que la red predijo un estado concreto en
comparacin con el estado que se observ en la base de datos de prueba. Un
ajuste perfecto se concretara con una diagonal que contenga frecuencias
diferentes de cero y con ceros fuera de la diagonal. En relacin con esto,
Netica proporciona la tasa o el porcentaje global de errores (Error rate) en la
clasificacin de los nuevos datos que no han sido usados para estimar el
modelo.
Cuando las variables son dicotmicas, el programa realiza un test de
especificidad generando las coordenadas de una curva ROC (Receiver
Operating Characteristic Curve) que evala la validez predictiva o clasificatoria
del nodo. Sin embargo, los puntos de corte que utiliza son arbitrarios y no
produce una estimacin del rea bajo la curva ROC. En caso de estar
interesados en estos estadsticos, se recomienda usar la funcin de
procesamiento de casos que se describir a continuacin y estimar el rea bajo
la curva ROC utilizando mtodos clsicos (Hanley y McNeil, 1982, 1983) u
otros programas informticos (Franco y Vivo, 2007).
Supongamos que los datos que aparecen en la Tabla 2 son un fichero de texto
plano delimitado por tabulaciones y que no han sido utilizados para
parametrizar nuestro modelo de red bayesiana. Si hacemos clic el nodo
Enfermedad con el botn izquierdo del ratn y accionamos el comando
Cases Test With Cases nos aparecer un cuadro de dilogo que nos pide
el archivo que contiene los datos de la Tabla 2. Al seleccionarlo y tras pulsar el
botn Abrir los resultados del anlisis aparecern en una nueva ventana en
formato de texto. Como se puede apreciar (Figura 9) ha habido cinco casos en

OPTIMIZACION DE SISTEMAS I 20
INFERENCIA BAYESIANA

los que la red ha predicho que la enfermedad era la Gripe A cuando


realmente fue as, mientras que ha habido 13 casos en que la red clasific
correctamente a los pacientes cuando padecan Gripe Comn. Por su parte,
nicamente dos casos fueron clasificados errneamente, lo que supone un
10% de tasa de errores. Los estadsticos de prdida logartmica, prdida
cuadrtica y compensacin esfrica tambin denotan un ajuste bastante
aceptable. Por un lado, la prdida logartmica y la prdida cuadrtica estn muy
cercanas a cero; mientras que la compensacin esfrica tiene un valor muy
cercano a uno.

OPTIMIZACION DE SISTEMAS I 21
INFERENCIA BAYESIANA

Para generar un archivo que contenga las probabilidades estimadas para cada
caso y respecto a un estado de la variable tenemos que, en primer lugar,
generar un fichero de control y un archivo que contenga los casos de las
variables que queremos utilizar como observaciones a evaluar. Por ejemplo,
consideremos que
IDnum()
bel (Enfermedad, Gripe_A) A
continuacin tendramos que ejecutar el comando Cases Process Cases.
La ventana que aparece nos pide el archivo de control que contiene la sintaxis
indicada anteriormente. Cuando especificamos cual es el archivo del control el
programa nos pide el archivo que contiene los casos a procesar (Tabla 3) y, a
continuacin, nos demanda un nombre y una ubicacin para el archivo que
contendr las probabilidades estimadas para el estado Gripe_A del nodo
Enfermedad para cada caso del archivo procesado. Estas probabilidades
pueden utilizarse para calcular estadsticos de verosimilitud como la lejana o
deviance (Lpez y Garca, 2011a) o estadsticos relativos al porcentaje de
varianza explicada por el modelo (DeMaris, 2002; Long, 1997).

OPTIMIZACION DE SISTEMAS I 22
INFERENCIA BAYESIANA

Aplicaciones:
El mtodo bayesiano en la investigacin mdica

La aplicacin ms intuitiva en medicina este teorema, y con la que todo el


mundo est familiarizado, la encontramos en el campo de las pruebas
diagnsticas, y nos permite, conociendo la prevalencia de una enfermedad en
la poblacin a la que pertenece un individuo y los valores de sensibilidad y
especificidad de la prueba, calcular la probabilidad de que un sujeto que ha
dado positivo en el test, verdaderamente tenga esa enfermedad.
La cual se calcula por los siguientes clculos:
Teorema de Bayes para Dos Variables
Mtodo Bayesiano Clsico

OPTIMIZACION DE SISTEMAS I 23
INFERENCIA BAYESIANA

El mtodo bayesiano al anlisis de competitividad:

El presente estudio muestra un enfoque alternativo a la estadstica clsica,


llamado mtodos bayesiana. Este mtodos fuel aplicado para determinar la
diferencia que existe en el grado de importancia que le asignan las empresas
de piezas y partes de madera, tanto en Chile como en Estados Unidos a
factores utilizados para alcanzar una mayor competitividad.
Para efectuar tal comparacin se recopilaron datos de una encuesta realizada
por el profesor Dr. German Echecopar K., de la Universidad de Talca. La

OPTIMIZACION DE SISTEMAS I 24
INFERENCIA BAYESIANA

muestra estaba compuesta por cuatro empresas de Estados Unidos y un


nmero similar de empresas chilenas. Las empresas de EE.UU. en cuestin
son Bettel, Moosehead, Williams y Robbins. En Chile, por su parte, se
consideraron empresas como Copihue, Faymo, Prosperidad y Becerra. Como
se mencion anteriormente el estudio comparativo est basado en estadstica
bayesiana, un mtodos que permite hacer inferencias sobre muestras
Pequeas, en este caso un n = 4 para cada muestra. El desarrollo de estos
mtodos tiene sus bases fundamentales en el teorema de Bayes, por lo que las
conclusiones Propiamente tal llevan a determinar probabilidades de
ocurrencias del evento en Cuestin.

La estadstica Bayesiana es un mtodos que se contrapone a los mtodos de


la estadstica frecuentita que usamos normalmente, la importancia de esta
radica Principalmente en que la probabilidad no se entiende solamente como la
frecuencia Relativa de un suceso a largo plazo, sino como el grado de
conviccin personal Acerca de que el suceso pueda ocurrir (Inferencia subjetiva
de la probabilidad). Al Admitir un manejo subjetivo de esta probabilidad, el
analista Bayesiano puede emitir Juicios sobre una hiptesis H y expresar el
grado de creencia, antes y despus de Haber observados los datos. La
creencia inicial o probabilidad a priori P(H) se Transforma en una probabilidad a
posteriori P(H/datos) o creencia posterior, una vez Incorporada la muestra. Los
factores esenciales considerados para medir la competitividad de estas
Empresas en trminos de gestin son:

OPTIMIZACION DE SISTEMAS I 25
INFERENCIA BAYESIANA

Generar eficiencia (menor costo)


Calidad del producto (mayor percepcin de valor)
Adecuado servicio al cliente.

Las principales similitudes se encontraron en la importancia que le otorgan las


empresas de Chile como EE.UU. al acabado final como a las mejoras en el
nivel de producto con un 69% de probabilidad de similitud, mientras que existen
diferencias en el grado de importancia en variables como las mejoras en el
proceso de ensamblado y la integracin vertical hacia el bosque, con un 19 y
36% respectivamente. En el parmetro de la eficiencia existen bastantes
similitudes, la principal diferencia radica en la mayor importancia que le asigna
Chile a la produccin a escala. Y, por ultimo con respecto a la adecuada
respuesta al cliente las principales diferencias estn en factores como el precio
y la lealtad a la marca, teniendo esta ultima un mayor grado de importancia en
EE.UU. mientras que el precio es menor en Chile por las ventajas comparativas
existentes.

El mtodo bayesiano aplicado a la toma de decisiones

OPTIMIZACION DE SISTEMAS I 26
INFERENCIA BAYESIANA

Sea el conjunto de sucesos relevantes en el anlisis de una determinada


alternativa en un problema de decisin, de forma que es la variable o
parmetro de inters. En el caso discreto, este conjunto ser de la forma =
{1, 2,...}, y en el caso continuo k ser un subconjunto de un espacio
eucldeo de dimensin finita k. Sea D un conjunto de datos observados, que
presumiblemente aportan informacin relevante sobre el verdadero (y
desconocido) valor de , y sean H las condiciones anteriores a la observacin
de los datos D. Los resultados descritos arriba demuestran la existencia de una
distribucin de probabilidad inicial, {Pr(1 | H), Pr(2 | H),...}, j P r(j | H)=1, en
el caso discreto, y {p( | H), }, p( | H)d = 1, en el caso continuo que
describe la informacin de que se dispone sobre el valor de en las
condiciones H anteriores a la observacin de los datos D. Suponiendo que tal
distribucin ya ha sido determinada, se pretende encontrar la distribucin de
probabilidad final, {Pr(1 | H, D), Pr(2 | H, D),...}, en el caso discreto, y {p( |
H, D), } en el caso continuo, que describe la informacin disponible sobre
el valor de en el momento de tomar la decisin, esto es, en las condiciones C
= (H, D) en las que se dispone tanto de la informacin inicial H como de la
informacin proporcionada por los nuevos datos D. El estudio estadstico de un
conjunto D de datos observados, que presumiblemente aportan informacin
relevante sobre el verdadero (y desconocido) valor de , suele empezar con un
anlisis descriptivo de su comportamiento, lo que permite sugerir un modelo
probabilstico formal, {p(D | , }, que describe (para el verdadero valor de
) el mecanismo probabilstico que ha generado los datos observados D. El
teorema de Bayes (que da el nombre a los mtodos bayesianos), permite
obtener la distribucin final buscada en t

en el caso discreto, y

en el caso continuo.

Ejemplo : Control de contaminacin. Para verificar la posible contaminacin por


un agente qumico de determinados productos hortcolas se dispone de un test
del que se ha determinado en laboratorio que indica un resultado positivo en el
99% de los productos contaminados que se prueban (positivos correctos) y en
el 2% de los no contaminados (falsos positivos). Si denotamos por 1 el suceso
de que un producto est contaminado y por 2 el suceso complementario de

OPTIMIZACION DE SISTEMAS I 27
INFERENCIA BAYESIANA

que no lo est, la probabilidad final Pr(1 | H, +) de que un determinado


producto este contaminado cuando el test ha dado positivo es

en funcin de la proporcin p de productos contaminados entre los que


forman parte del estudio. La Figura 5 muestra Pr(1 | H, +) en funcin de p
= Pr(1 | H). Como podra esperarse, la probabilidad final es igual a cero si
(y solamente si) la probabilidad inicial es igual a cero, (de forma que se sabe
que no hay ningn producto contaminado), y es igual a uno si (y solamente
si) la probabilidad inicial es igual a uno, (de forma que se sabe que todos los
productos estn contaminados).

Si un 50% de los productos estn contaminados, de forma que Pr(1 | H)=0.5,


entonces Pr(1 | H, +) = 0.980 de forma que el 98% de los productos que den
lugar a un test positivo estarn realmente contaminados. Obsrvese, sin
embargo, que si la proporcin Pr(1 | H) de productos contaminados entre los
que son objeto de estudio es pequea, entonces la probabilidad de que un
producto escogido al azar est contaminado ser relativamente pequea,
incluso cuando el test haya dado positivo. Por ejemplo, si Pr(1 | H)=0.005, de
forma que que slo el 0.5% estn contaminados, resulta Pr(1 | H, +) = 0.199,
con lo que solamente el 19.9% de los productos que den lugar a un test

OPTIMIZACION DE SISTEMAS I 28
INFERENCIA BAYESIANA

positivo estarn realmente contaminados: la mayor parte de los resultados


positivos sern falsos positivos. Distribuciones iniciales de referencia. El
teorema de Bayes permite la incorporacin la informacin adicional sobre la
variable de inters proporcionada por un conjunto de datos adicionales D en
funcin del modelo que describe el comportamiento probabilstico de los datos,
y de la distribucin inicial de . Sin embargo, en muchos problemas no se
dispone de informacin inicial sobre o esa informacin no es fcilmente
objetivable y se quieren obtener conclusiones exclusivamente basadas en los
datos observados D. En tales casos, es necesario especificar una distribucin
inicial de referencia () que describa matemticamente la hiptesis de que no
se dispone de informacin inicial sobre el valor de la cantidad de inters. La
teora de la informacin permite resolver este importante problema. En el caso
particular en que slo pueda tomar un nmero finito m de valores la solucin
es, como caba esperar, la distribucin uniforme,
(i)=1/m, i = 1, . . . , m.
Cuando es una variable continua unidimensional y el modelo probabilstico
suficientemente regular, la distribucin de referencia viene dada por la
frmula de Jeffreys,

3. Conclusiones:

OPTIMIZACION DE SISTEMAS I 29
INFERENCIA BAYESIANA

El teorema de Bayes resulta simple si solo hay que tomar la variable principal
de la que se quiere conocer la probabilidad teniendo en cuenta los parmetros
de la formula. Las aplicaciones con el teorema de Bayes son innumerables, ya
que con el uso del teorema de Bayes se pueden hacer demasiadas inferencias
probabilsticas haciendo as sencillo el proceso cuando se implementa el uso
de diagramas de rbol.
El mtodo bayesiano puede ser apropiado si los gerentes a cargo de la toma
de decisiones estn dispuestos a utilizar un modelo que tenga en cuenta sus
conocimientos y experiencia. Una de las claves consiste en suministran una
forma til para evaluar a los consumidores; lo que le permite al gerente ejercer
control a los factores que pueden influir en el impacto del estudio del mercado.
Estos experimentos son tiles para medir la respuesta del consumidor a las
nuevas actividades que la empresa no ha intentado histricamente.
La teora de la decisin bayesiana es ideal en aplicacin para la solucin de
problemas de comercializacin, teniendo en cuenta los parmetros de la
incertidumbre; donde la incertidumbre debe tener en cuenta la toma de
decisiones como una accin que establece el valor de diversas variables en el
entorno de mercado que enfrenta el consumidor y las compaas.
La importancia y uso creciente de los nuevos modelos, representa la inmersin
en un nuevo mundo en el cual la incertidumbre no constituye un impedimento
para un eficaz tratamiento en la toma de decisiones y evaluacin de procesos.
La combinacin de un adecuado sistema de inferencia con el conocimiento
adquirido durante la elaboracin de un modelo bayesiano por parte de los
expertos, constituye una gran fortaleza para cualquier anlisis, puesto que
existen factores externos al sistema que proporcionan informacin adicional
para la evaluacin del requerimiento.

4. BIBLIOGRAFIA:

OPTIMIZACION DE SISTEMAS I 30
INFERENCIA BAYESIANA

Aguilera, P. A., Fernndez, A. Fernndez, R., Rum, R., y Salmern, A.


(En prensa). Bayesian networks in environmental modelling.
Environmental Modelling & Software. doi:
10.1016/j.envsoft.2011.06.004

Batista, J. M., y Coenders, G. (2000). Modelos de ecuaciones


estructurales. Madrid: Muralla/Hesprides.

Glymour, C. (2001). The minds arrows. Bayes nets and graphical


causal models in psychology. Cambridge, MA: MIT Press.

http://www.dccia.ua.es/~miguel/tesis/tesis006.html

http://www.puertos.es/es-
es/medioambiente/Documents/pro14.pdf

www2.ulpgc.es/descargadirecta.php?codigo_archivo=7062983

www.posgrado.pucp.edu.pe/curso/inferencia-bayesiana/

www.mat.ucm.es/~villegas/info/bayesianos/ComputacionBayesiana.pdf

www.ugr.es/~fdeasis/Material/InferenciaLicenciatura/Inferencia_Tema4Clase.pdf

OPTIMIZACION DE SISTEMAS I 31