Está en la página 1de 8

CAPITULO 1

REDES BAYESIANAS

INTRODUCCION

Las redes bayesianas proporcionan una representación gráfica para un conjunto de variables aleatorias y para
las relaciones existentes entre ellas. La estructura de la red permite especificar la función de probabilidad
conjunta de estas variables como el producto de funciones de probabilidad condicionadas, por lo general, más
sencillas. Este enfoque representa una buena estrategia para hacer frente a problemas relacionados con la
incertidumbre, donde las conclusiones no pueden ser construidas sólo a partir de un conocimiento previo sobre
el problema.

Inicialmente, estos modelos eran construidos "a mano" basados en un conocimiento experto, pero en los últimos
años se han desarrollado diversas técnicas para aprender a partir de datos, tanto la estructura como los
parámetros asociados al modelo.

Las redes bayesianas se encuentran entre los modelos gráficos más populares. La principal diferencia, con
respecto a otros modelos, está en que sus arcos son dirigidos y representan dependencia condicional entre las
variables. El nombre proviene del hecho que gran parte de la teoría relevante con este tipo de redes se basa
en la estadística bayesiana.

CONCEPTO

Una Red Bayesiana es un modelo probabilístico que relaciona un conjunto de variables aleatorias mediante un
grafo dirigido, son redes graficas sin ciclos en el que se representan variables aleatorias y las relaciones de
probabilidad que existan entre ellas que permiten conseguir soluciones a problemas de decisión en casos de
incertidumbre.

Una red bayesiana es una representación ilustrada de dependencias para razonamiento probabilístico, en la
cual los nodos representan variables aleatorias y los arcos simbolizan relaciones de dependencia directa entre
las variables.

Una red Bayesiana es una herramienta informática a la que puede crearse diferentes modelos dependiendo
del caso de estudio según la concepción que tenga el diseñador y de las condiciones del comportamiento de
las variables.

Las redes bayesianas organizan un problema mediante un conjunto de variables y las relaciones de
dependencia entre ellas. Dado este modelo, se puede hacer inferencia bayesiana; es decir, estimar la
probabilidad posterior de las variables no conocidas, en base a las variables conocidas. Estos modelos
bayesianos poseen diferentes aplicaciones para diagnóstico, clasificación y decisión que brinde información
importante en cuanto a cómo se relacionan las variables, las cuales pueden ser interpretadas como relaciones
de causa-efecto.

Las redes bayesianas son elaboradas basándose en un conocimiento experto desarrollando diversas técnicas
para aprender a partir de ciertos datos que estructuran parámetros asociados al modelo, siendo posibles
compartir conocimientos obtenidos de los datos del caso de estudio.

INFERENCIA

Se denomina inferencia a la acción de calcular la probabilidad de cada estado de un nodo. Para realizar
inferencia en la red es necesario estudiar primero como se propaga el conocimiento en la red.
INCERTIDUMBRE

La incertidumbre es natural en el proceso de razonamiento donde se pueden establecer reglas para inferir de
manera deductiva una proposición determinada que puede ser verdadera o falsa, según sea el límite de esta
estimación.

Cuando se utilizan evidencias y observaciones para establecer que una suposición sea cierta, es lo que se
denomina como Inferencia Bayesiana. La inferencia bayesiana observa la evidencia y calcula un valor estimado
según el grado de creencia planteado en la hipótesis. Esto implica que al tener mayor cantidad de datos
disponibles se podrá obtener resultados más satisfactorios.

Aplicando la inferencia Bayesiana es posible identificar distintos tipos de patrones de transición como estados
de ganancias discretas en un gran conjunto de datos administrativos. Además, se puede investigar acerca de
los efectos y las condiciones del mercado por medio de la estimación de un modelo probabilístico.

TIPOS DE REDES BAYESIANAS

 REDES BAYESIANAS CONTINUAS

Las redes bayesianas continuas son aquellas que tienen un número infinito de posibles valores. En este tipo
de redes resulta complicado determinar explícitamente las probabilidades condicionadas para cada valor de las
variables, el problema reside en la especificación de las tablas de la probabilidad condicional.

La mayoría de las variables reales son de carácter continuo como por ejemplo la variación de la temperatura.
Una red Bayesiana cuyas variables sean todas continuas y estén todas representadas mediante funciones
normales lineales, tiene una distribución normal multivariada.

Este tipo de variables debe ser manejada mediante el proceso de discretización debido a la gran cantidad de
datos que deben ser modelados por medio de selección de rangos y de este modo hacer más sencillo el proceso
de discretización.

 REDES BAYESIANAS DINÁMICAS

Las redes Bayesianas dinámicas consienten en la exposición de procesos que contienen una variable aleatoria
en cada intervalo de tiempo. El proceso que se está estudiando puede entenderse como una serie de procesos
en un instante de tiempo.

El estado de las variables se representa en un lapso de tiempo para poder representar los procesos dinámicos
conocidos dentro de la red bayesiana. Las probabilidades condicionales de este modelo no cambian con el
tiempo. Es decir, se repite las etapas temporales y las relaciones entre dichas etapas.

La inferencia en una red bayesiana dinámica es la misma que para una red bayesiana, y por esto se emplean
los mismos métodos. Esta inferencia resulta mediante la reproducción de los intervalos de tiempo, hasta que la
red sea lo suficiente larga para captar todas las observaciones.

CONSTRUCCION DE MODELOS PROBABILISTICOS

1.- PLANTEAMIENTO DEL PROBLEMA

La definición del problema es un paso crucial en el desarrollo del modelo, pues un mal planteamiento inicial
tendrá consecuencias fatales para el modelo desarrollado.
2.- SELECCIÓN DE VARIABLES

Una vez que el problema ha sido definido, el siguiente paso consiste en seleccionar un conjunto de variables
que sean relevantes para su definición (esta tarea debe ser realizada por expertos en el problema a analizar).

3.- ADQUISICIÓN DE INFORMACIÓN RELEVANTE.

Una vez que se ha realizado el planteamiento inicial del problema, el siguiente paso consiste en la adquisición
y análisis de toda la información (datos) que sea relevante para la definición del modelo. La información puede
ser cuantitativa o cualitativa, obtenida de un experto, o de una base de datos. Esta información deberá ser
cuidadosamente analizada utilizando técnicas de diseño experimental apropiadas. Es importante contar en esta
etapa con la ayuda de especialistas en Estadística, pues el uso de métodos estadísticos permite mejorar la
calidad de los datos y confirmar la validez de los métodos empleados para la obtención de las conclusiones.

4.- CONSTRUCCIÓN DEL MODELO PROBABILÍSTICO

Una vez que se conoce un conjunto de variables relevantes para el problema a analizar, y que se ha adquirido
suficiente información para su definición, el siguiente paso consiste en la definición de una función de
probabilidad conjunta que describa las relaciones entre las variables. ´Este es, quizás, el paso más crítico y
difícil en el desarrollo de un sistema experto:

A. Es crítico porque la bondad de los resultados del sistema experto dependerá de la precisión con
que se haya definido la función de probabilidad conjunta, es decir, la calidad de los resultados
no podrá superar a la calidad del modelo. Por tanto, una incorrecta definición del modelo
probabilístico redundara en un sistema experto que dará conclusiones erróneas y/o
contradictorias.
B. La estructura de la función de probabilidad conjunta (es decir, la estructura de dependencia e
independencia entre las variables) no suele ser conocida en la práctica. Por tanto, habrá de ser
inferida del conjunto de datos obtenidos previamente. Por tanto, la calidad del modelo tampoco
podrá superar la calidad de los datos relevantes disponibles.
C. La estructura del modelo probabilístico puede depender de un número muy elevado de
parámetros que complican su definición. Cuanto mayor sea el número de parámetros mas
complicada será la asignación de valores numéricos concretos en el proceso de definición del
modelo. En cualquier caso, esta asignación habrá de ser realizada por un experto, o estimada a
partir de la información disponible.

APRENDIZAJE DE REDES BAYESIANAS

Durante mucho tiempo las redes bayesianas se construyeron a mano a partir del conocimiento de expertos. La
pregunta a plantearse a continuación es la siguiente: ¿pueden inducirse a partir de conjuntos de datos
clasificadores basados en redes bayesianas? Si no se restringe la topología de las redes inducidas, ¿pueden
obtenerse clasificadores mejores que Naive Bayes?

El problema del aprendizaje bayesiano puede describirse informalmente como: dado un conjunto de
entrenamiento D = {u1, u2,…, un} de instancias de U, encuéntrese la red B que se ajuste mejor a D.

Típicamente, este problema se divide en dos partes:

 Aprendizaje estructural: obtener la estructura de la red.


 Aprendizaje paramétrico: conocida la estructura del grafo, obtener las probabilidades correspondientes
a cada nodo.
Aprendizaje paramétrico

El aprendizaje de los parámetros es simple cuando todas las variables son completamente observables en el
conjunto de entrenamiento. El método más común es el llamado estimador de máxima verosimilitud, que
consiste sencillamente en estimar las probabilidades deseadas a partir de la frecuencia de los valores de los
datos de entrenamiento, de forma análoga a como se hace en Naive Bayes.

La calidad de estas estimaciones dependerá de que exista un número suficiente de datos en la muestra.
Cuando esto no es posible se puede cuantificar la incertidumbre existente representándola mediante una
distribución de probabilidad, para así considerarla explícitamente en la definición de las probabilidades.

Aprendizaje estructural

El aprendizaje estructural conlleva explorar un espacio de grafos. Esta tarea es muy compleja. A poco que se
incrementa el número de variables (nodos), el número de posibles grafos a construir con ellas se dispara. Por
eso en muchas ocasiones se restringe el espacio de búsqueda a grafos con características concretas. Existen
muchos algoritmos específicos para el aprendizaje de redes donde G se limita a un árbol, o a un poli árbol, o a
otras estructuras menos generales.

No obstante, existen técnicas para aprender redes con estructuras generales. Trabajar sin restricciones debería
permitir, idealmente, construir redes que ajusten mejor al conjunto de entrenamiento, por complejas que sean
las dependencias entre los atributos.

VENTAJAS

Entre las ventajas de las redes bayesianas se encuentra:

 Permiten representar al unísono la dimensión cualitativa y cuantitativa de un problema en un entorno


gráfico inteligible.
 Pueden trabajar con datos perdidos de una manera eficiente, algo que en la práctica es deseable.
 Permiten reducir el sobre ajuste de los datos.
 Posibilitan el descubrimiento de la estructura causal subyacente en un conjunto de datos.
 Representan toda la información en un único formato (probabilístico y gráfico) lo que hace sencillas las
interpretaciones, permite retractarse de conclusiones obtenidas con anterioridad ya que no son
razonables a la luz de nuevas evidencias, proporcionan una visión general del problema, generan un
conjunto de alternativas ordenadas y facilita la explicación de las conclusiones.
 Permiten realizar inferencias bidireccionales; esto es, desde los efectos a las causas y desde las causas
a los efectos, etc.

APLICACIONES

En la actualidad, las redes bayesianas poseen numerables aplicaciones, sobre todo estas se ponen de
manifiesto cuando la cantidad de datos manipulados aumenta a velocidades vertiginosas, haciéndose
necesario procesarlos e interpretarlos de forma que sea posible extraer el conocimiento preciso para una
adecuada toma de decisiones. A continuación se exponen algunos ejemplos de aplicaciones de las redes
bayesianas:

Tutores bayesianos inteligentes

HYDRIVE: El sistema HYDRIVE fue desarrollado por los Laboratorios Armstrong de las Fuerzas Aéreas de los
Estados Unidos para simular el funcionamiento del avión de combate F-15. Los problemas se presentan en
formato de video donde el piloto describe algunas deficiencias en el funcionamiento de un aparato que está
aterrizando o que ya ha aterrizado (por ejemplo, el chequeo rutinario del timón de aterrizaje no responde
correctamente). La interfaz gráfica permite al estudiante llevar a cabo una tarea de resolución de problemas
revisando videos del aparato y actuando sobre ellos.

La red bayesiana generada a partir de HYDRIVE consta de 22 nodos organizados jerárquicamente en cuatro
capas. En la cúspide de la jerarquía aparece la ejecución global del usuario. En un nivel inferior se reflejan los
tres tipos de conocimientos que el sistema evalúa: conocimiento del sistema, conocimiento estratégico y
conocimiento procedimental. En la tercera capa están los subcomponentes de cada tipo de conocimiento. La
cuarta capa sirve para recoger los datos de la ejecución del alumno. Todos los arcos están orientados en
sentido decreciente desde las capas superiores a las inferiores.

Andes: El rasgo que caracteriza a Andes es que no reduce la iniciativa del usuario estableciendo vías estrictas
en el aprendizaje Más bien, es un sistema abierto que permite aprender una habilidad o concepto por medio de
diferentes procedimientos. Otra característica importante de Andes es que puede suministrar ayuda dinámica
cuando el/la estudiante se encuentra en un callejón sin salida y no sabe cómo continuar en la resolución de un
problema. Se desarrolló a partir de OLAE (acrónimo de la expresión anglosajona Off�Line Assessment of
Expertise) y su objetivo es la enseñanza de física newtoniana a nivel universitario.

Biomedicina

1. Predicción de la supervivencia en cáncer de mama.

2. Multiclasificador de dos niveles para supervivencia en Unidad de Cuidados Intensivos (UCI).

3. Clustering geográfico de la incidencia del cáncer.

4. Predicción de la estructura secundaria de las proteínas.

5. BayesChess: Programa de ajedrez capaz de adaptar su estrategia al usuario al que se enfrenta y de refinar
la función de evaluación que guía el proceso de búsqueda en base a su propia experiencia de juego.

6. Investigaciones policiales

Se construyó un sistema informático que predice la probabilidad de robos en casas de una región metropolitana
de Birmingham. El mismo está integrado por varios módulos que funcionan controlados por diversas
herramientas estadísticas. Sin embargo, el motor de inferencia principal es una red bayesiana que estima la
probabilidad de asaltos a casas en función de un conjunto de variables.

Aplicaciones en empresas

Microsoft: Answer Wizard (Office), diagnóstico de problemas de impresora, etc.

Intel: Diagnóstico de fallos de procesadores.

HP: Diagnóstico de problemas de impresora.

Nasa: Ayuda a la decisión de misiones espaciales.

Psicología

El Instituto de Investigación en Salud Mental de Victoria (Melbourne, Australia), trabaja con esta tecnología con
el objetivo de comprender, tratar y prevenir trastornos psicológicos como la esquizofrenia, los trastornos del
estado de ánimo, etc. De igual manera se piensa puede extenderse hacia la psicología educativa, forense y
psicodiagnóstico.

TEOREMA DE BAYES

El teorema de Bayes es un procedimiento para obtener probabilidades condicionales (probabilidades de


ocurrencia de acontecimientos condicionadas a la ocurrencia de otros acontecimientos).

La expresión del teorema de Bayes para dos variables discretas es:

Para variables que toman más de dos valores, la expresión es:

El teorema de Bayes da respuesta a cuestiones de tipo causal, predictivas y de diagnóstico. En las cuestiones
causales queremos saber cuál es la probabilidad de acontecimientos que son la consecuencia de otros
acontecimientos. En las cuestiones predictivas queremos saber cuál es la probabilidad de acontecimientos
dada información de la ocurrencia de los acontecimientos predictores. En las cuestiones de tipo diagnóstico
queremos saber cuál es la probabilidad del acontecimiento (o acontecimientos) causales o predictivos dado
que tenemos información de las consecuencias. Para resumir, en las situaciones causales o predictivas
desconocemos las consecuencias y tenemos evidencia de las causas. Por el contrario, en las situaciones de
diagnóstico desconocemos las causas y tenemos evidencia de las consecuencias.
GLOSARIO

Independencia Condicional: En probabilidad, dos acontecimientos R y B son condicionalmente


independientes dado un tercer evento Y, si la ocurrencia o no ocurrencia de R junto con la de B se da en forma
independiente dada Y. En otras palabras, R y B son condicionalmente independientes dado Y, si y sólo si el
conocimiento que se tiene de Y provoca que el conocimiento sobre el estado de R no genere cambios sobre la
probabilidad de que ocurra B, y de igual manera el conocimiento de si se produce B no proporciona información
sobre la probabilidad de que ocurra R.

No tiene por qué haber una relación causal o temporal entre A y B. A puede preceder en el tiempo a B, sucederlo
o pueden ocurrir simultáneamente. A puede causar B, viceversa o pueden no tener relación causal. Las
relaciones causales o temporales son nociones que no pertenecen al ámbito de la probabilidad. Pueden
desempeñar un papel o no, dependiendo de la interpretación que se le dé a los eventos.

Probabilidad: La probabilidad es una medida de la certidumbre asociada a un suceso o evento futuro y suele
expresarse como un número entre 0 y 1 (o entre 0 % y 100 %).

Una forma tradicional de estimar algunas probabilidades sería obtener la frecuencia de un acontecimiento
determinado mediante la realización de experimentos aleatorios, de los que se conocen todos los resultados
posibles, bajo condiciones suficientemente estables. Un suceso puede ser improbable (con probabilidad
cercana a cero), probable (probabilidad intermedia) o seguro (con probabilidad uno)

Probabilidad A Priori: Probabilidad de la que se parte antes de efectuar un experimento que pueda arrojar
nueva información sobre dicha probabilidad, para obtener luego la probabilidad revisada o a posteriori. La
distinción entre probabilidad a priori y probabilidad a posteriori es relativa. Una probabilidad a posteriori vuelve
a ser a priori con relación al experimento siguiente. Tampoco se puede identificar la probabilidad a priori con la
probabilidad subjetiva y la probabilidad a posteriori con la experimental u objetiva. Una probabilidad a priori
puede ser especificada a partir de una información de naturaleza subjetiva, objetiva o de una mezcla de ambas

Probabilidad A Posteriori: Probabilidad que resulta de revisar una probabilidad a priori, inicial o de partida,
en función de la información deducida de las nuevas pruebas practicadas. La distinción entre probabilidad a
priori y a posteriori es relativa. Una probabilidad a posteriori vuelve a ser a priori en relación a un nuevo
experimento. A partir de las probabilidades a priori y la información adicional producto de una muestra, la
fórmula de Bayes permite obtener las probabilidades revisadas o a posteriori.

Probabilidad Condicional: Es la probabilidad de que ocurra un evento A, sabiendo que también sucede otro
evento B. La probabilidad condicional se escribe P(A|B) o P(A/B), y se lee «la probabilidad de A dado B».

Probabilidad Conjunta: Es la probabilidad de ocurrencia de dos o más eventos. De la expresión


P(B|A)=P(A∩B)/P(A) se pude despejar P(A∩B)=P(A)P(B|A) expresión llamada Ley de multiplicación de
probabilidades. P(A∩B) recibe el nombre de probabilidad conjunta y corresponde a la probabilidad de que se
presenten resultados comunes a los eventos A y B.

Variable Aleatoria: Es un número que representa un resultado de una circunstancia o un experimento


aleatorio. Una variable aleatoria puede ser discreta o continua. Una variable aleatoria discreta solo puede tener
valores contables distintos, tales como 0, 1, 2, 3,…. Los ejemplos incluyen el número de estudiantes en un aula,
el número de aviones en un aeropuerto o el número de defectos en un lote. Una variable aleatoria continua
puede tener cualquier valor, por ejemplo una medición. Los ejemplos incluyen la estatura de los sujetos de un
estudio, el peso de cajas de cereal o la longitud de destornilladores.

También podría gustarte