Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Alumnos:
Colque Mlaga, Jos Luis Jimnez Alegra, Luis Carlos Mantilla Valdivia, Rely Sanchez Panihuara, Luis
Red Bayesiana
Es un modelo de representacin para la distribucin conjunta de probabilidad de un conjunto de variables en donde la orientacin de los arcos representan la influencia entre las variables. Se basa en el Teorema de Bayes, la base de estos temas se centra en:
Probabilidad Conjunta
Es la probabilidad que 2 eventos A y B (2 valores asociados a 2 variables aleatorias) ocurran. o P(A): Probabilidad de que el evento A ocurra. o P(B): Probabilidad de que el evento B ocurra. o P(A&B) o P(A,B): Probabilidad de que A y B ocurran a la vez. Si A y B son eventos totalmente independientes la ocurrencia de uno no afecta la ocurrencia de otro, es decir: P(A&B)=P(A)*P(B) Ejemplo: dos dados arrojados independientemente.
Probabilidad Condicional
Si A y B no son eventos independientes tenemos que: P(A&B)=P(A)*P(B|A) Donde P(B|A)=P(A&B)/P(A) es la probabilidad de que B ocurra como consecuencia de A (probabilidad condicionada de B dado A). Ejemplo varias bolas de 2 colores en una caja o A=bola azul o B=bola roja o A&B=bola azul y roja
Teorema de Bayes Ntese que P(A&B)=P(B&A), es decir P(B|A)*P(A)=P(A|B*P(B) entonces: P(B|A)=P(A|B)*P(B)/P(A) Ejemplo:
o
o o o
Un mdico sabe que la meningitis causa tortcolis 50% del tiempo La probabilidad a priori de meningitis 1/50 000 La probabilidad a priori de tortcolis es 1/20 Si el paciente tiene tortcolis (evidencia) cul es la posibilidad a posteriori de que tenga meningitis?
El teorema se generaliza para varias variables aleatorias A1,A2,...,An Si las varias variables son independientes se tiene:
[Independencia]
[Independencia condicional]
o
o o
Las variable se representan como nodos. Los arcos representan dependencia probabilstica entre variables. Las probabilidades condicionales representan la dependencia entre variable.
Grafos Acclicos Dirigidos (DAG) Cada nodo tiene asociada una probabilidad
condicional estando la condicin relacionada con los nodos padres: p[X|pa(X)]. La probabilidad conjunta de todas las variables U est dada por el producto de estos trminos en todos los nodos.
Ejemplo de red
Ejemplo
Marginalizacin e inferencia
Introduccin
El objetivo de la investigacin del paper Detection of Anomalies in Large Datasets Using an Active Learning Scheme Based on Dirichlet Distributions es proponer un nuevo algoritmo para poder detectar registros anmalos en grandes Datasets. Dependiendo del dominio, estas anomalas pueden corresponder a transacciones fraudulentas en una base de datos financiera, fenmenos nuevos en la informacin cientfica, o registros de los productos defectuosos en una base de datos de fabricacin, etc.
El paradigma usado en su enfoque es el de un aprendizaje activo, es decir el algoritmo selectivamente consulta con un experto humano para as poder retroalimentarse. Para esto se usan las Redes Bayesianas con las cuales se puede modelar una funcin de densidad de probabilidad conjunta de los atributos de los registros de una gran base de datos.
Esta funcin nos proporciona un mtodo para poder clasificar los registros en funcin de su rareza, mientras que los registros comunes, muy bien explicado por las RB recibe una alta probabilidad, los registros extraos, mal explicado por la RB, reciben una baja probabilidad.
Aprendizaje activo
Esta seccin describe los pasos principales del enfoque de aprendizaje activo. Como lo han mencionado antes, este algoritmo pide la opinin de los expertos para poder explorar de manera eficiente un conjunto inicial de anomalas candidatos proporcionados por un RB.
Las ideas bsicas detrs del enfoque de aprendizaje activo se basa en dos observaciones: 1) La primera observacin es que, por lo general, las anomalas presentes en grandes bases de datos no son puntos aislados, sino que exhiben ciertas regularidades o patrones que se presentan en subespacios selectivos.
2) La segunda observacin se basa en una caracterstica clave de su probabilstica modelo, es decir, la factorizacin de la funcin de densidad conjunta proporcionada por la RB. Desde el punto de vista de la agrupacin, esta factorizacin se puede entender como el ajuste del modelo de seleccin de dimensiones o subespacios.
Algoritmo
Este algoritmo se basa en tres pasos principales: 1) Identificacin de la configuracin inicial del candidato anomalas. 2) Seleccin de los subespacios relevantes mediante la factorizacin proporcionada por BN 3) Utilizacin de aprendizaje activo para identificar microclusters pertinentes.
x={x_1,...,x_n} Conjunto de variables aleatorias G : Grafo dirigido acclico Pa^g(x_i) : es el conjunto de padres directos de G
Resultados
El algoritmo se prob condiciones diferentes que utilizan conjuntos de datos sintticos y reales.
Mientras el experto analiza 2% de la base de datos el algoritmo es capaz de detectar 90% de las anomalias dnde Sub1...Sub5 son los subespacios con anormalidades
Conclusiones
1. El algoritmo presentado en este trabajo es capaz de disminuir significativamente el tiempo para encontrar anormalidades en las bases de datos. 2. Un aprendizaje semi-supervisado nos da mejores resultados que un aprendizaje automtico o no supervisado para este caso en cuestin 3. Logramos una eficiencia mayor de anlisis de bases de datos que con un experto obteniendo buenos resultados en menos tiempo