Está en la página 1de 30

Deteccin de Anormalidades en las bases de datos

Alumnos:

Colque Mlaga, Jos Luis Jimnez Alegra, Luis Carlos Mantilla Valdivia, Rely Sanchez Panihuara, Luis

Red Bayesiana
Es un modelo de representacin para la distribucin conjunta de probabilidad de un conjunto de variables en donde la orientacin de los arcos representan la influencia entre las variables. Se basa en el Teorema de Bayes, la base de estos temas se centra en:

Probabilidad conjunta Probabilidad condicional

Probabilidad Conjunta
Es la probabilidad que 2 eventos A y B (2 valores asociados a 2 variables aleatorias) ocurran. o P(A): Probabilidad de que el evento A ocurra. o P(B): Probabilidad de que el evento B ocurra. o P(A&B) o P(A,B): Probabilidad de que A y B ocurran a la vez. Si A y B son eventos totalmente independientes la ocurrencia de uno no afecta la ocurrencia de otro, es decir: P(A&B)=P(A)*P(B) Ejemplo: dos dados arrojados independientemente.

Probabilidad Condicional
Si A y B no son eventos independientes tenemos que: P(A&B)=P(A)*P(B|A) Donde P(B|A)=P(A&B)/P(A) es la probabilidad de que B ocurra como consecuencia de A (probabilidad condicionada de B dado A). Ejemplo varias bolas de 2 colores en una caja o A=bola azul o B=bola roja o A&B=bola azul y roja

Teorema de Bayes Ntese que P(A&B)=P(B&A), es decir P(B|A)*P(A)=P(A|B*P(B) entonces: P(B|A)=P(A|B)*P(B)/P(A) Ejemplo:
o
o o o

Un mdico sabe que la meningitis causa tortcolis 50% del tiempo La probabilidad a priori de meningitis 1/50 000 La probabilidad a priori de tortcolis es 1/20 Si el paciente tiene tortcolis (evidencia) cul es la posibilidad a posteriori de que tenga meningitis?

El teorema se generaliza para varias variables aleatorias A1,A2,...,An Si las varias variables son independientes se tiene:
[Independencia]
[Independencia condicional]

Definicin de una red Bayesiana


Representacin de distribuciones conjuntas de probabilidad como un grafo orientado. Estructura para representar el conocimiento sobre variables inciertas.

o
o o

Las variable se representan como nodos. Los arcos representan dependencia probabilstica entre variables. Las probabilidades condicionales representan la dependencia entre variable.

Grafos Acclicos Dirigidos (DAG) Cada nodo tiene asociada una probabilidad

condicional estando la condicin relacionada con los nodos padres: p[X|pa(X)]. La probabilidad conjunta de todas las variables U est dada por el producto de estos trminos en todos los nodos.

Ejemplo de red

Ejemplo

Ejemplo: Probabilidades Conjuntas

Marginalizacin e inferencia

Introduccin
El objetivo de la investigacin del paper Detection of Anomalies in Large Datasets Using an Active Learning Scheme Based on Dirichlet Distributions es proponer un nuevo algoritmo para poder detectar registros anmalos en grandes Datasets. Dependiendo del dominio, estas anomalas pueden corresponder a transacciones fraudulentas en una base de datos financiera, fenmenos nuevos en la informacin cientfica, o registros de los productos defectuosos en una base de datos de fabricacin, etc.

El paradigma usado en su enfoque es el de un aprendizaje activo, es decir el algoritmo selectivamente consulta con un experto humano para as poder retroalimentarse. Para esto se usan las Redes Bayesianas con las cuales se puede modelar una funcin de densidad de probabilidad conjunta de los atributos de los registros de una gran base de datos.

Esta funcin nos proporciona un mtodo para poder clasificar los registros en funcin de su rareza, mientras que los registros comunes, muy bien explicado por las RB recibe una alta probabilidad, los registros extraos, mal explicado por la RB, reciben una baja probabilidad.

Aprendizaje activo
Esta seccin describe los pasos principales del enfoque de aprendizaje activo. Como lo han mencionado antes, este algoritmo pide la opinin de los expertos para poder explorar de manera eficiente un conjunto inicial de anomalas candidatos proporcionados por un RB.

Las ideas bsicas detrs del enfoque de aprendizaje activo se basa en dos observaciones: 1) La primera observacin es que, por lo general, las anomalas presentes en grandes bases de datos no son puntos aislados, sino que exhiben ciertas regularidades o patrones que se presentan en subespacios selectivos.

2) La segunda observacin se basa en una caracterstica clave de su probabilstica modelo, es decir, la factorizacin de la funcin de densidad conjunta proporcionada por la RB. Desde el punto de vista de la agrupacin, esta factorizacin se puede entender como el ajuste del modelo de seleccin de dimensiones o subespacios.

Algoritmo
Este algoritmo se basa en tres pasos principales: 1) Identificacin de la configuracin inicial del candidato anomalas. 2) Seleccin de los subespacios relevantes mediante la factorizacin proporcionada por BN 3) Utilizacin de aprendizaje activo para identificar microclusters pertinentes.

Identificar el conjunto inicial de anormalidades


Utilizaremos el modelo BN y los valores de prioridad entregados por BN como indicador del grado de rareza

x={x_1,...,x_n} Conjunto de variables aleatorias G : Grafo dirigido acclico Pa^g(x_i) : es el conjunto de padres directos de G

Seleccin de los subespacios relevantes


Encontrar los subespacios que usamos para encontrar que microclusters contienen anormalidades. En la mayora de situaciones las anormalidades de en la BD por lo que el conjunto inicial encontrado por la Red Bayesiana(RB) no puede ser el subespacio relevante por lo tanto se adapta para un segundo RB al conjunto reducido de candidatos

Usar aprendizaje activo para identificar microclusters


Utiliza a expertos para orientar la bsqueda de los registros anmalos. En este paso se le muestran a los expertos el grupo de candidatos anmalos, de este modo el experto da una calificacin aumentando o disminuyendo la probabilidad de recuperar una relevante anomala

Resultados
El algoritmo se prob condiciones diferentes que utilizan conjuntos de datos sintticos y reales.

Deteccin de anomalas en los

conjuntos de datos sintticos


Para experimento del algoritmo se us datos sintticos para el experimento de deteccin de anomalas Los datos sintticos contienen 90 000 registros y 10 atributos , simulando 2000 registros anmalos

Mientras el experto analiza 2% de la base de datos el algoritmo es capaz de detectar 90% de las anomalias dnde Sub1...Sub5 son los subespacios con anormalidades

Deteccin de los subespacios relevantes para los registros anmalos


Para probar la eficiencia del algoritmo en la deteccin de subespacios relevantes se utiliz una Base de Datos con 11 000 registros y 8 atributos, se le aadi intencionalmente 249 registros anmalos en 5 diferentes subespacios

Sensibilidad bajo presencia de ruido


En la imagen se muestra como el rendimiento del sistema se afecta con el nivel de ruido, el experto logra un mayor equilibrio porque concentra la bsqueda en microclusters con anomalas relevantes

Deteccin de anomalas en un conjunto de datos reales


la base de datos contiene 9000 registros con 16 atributos. Cada registro corresponde a un personaje manuscrita de una de las 10 clases diferentes. Aqu, dos de estas clases se consideran como anmala porque corresponden a slo el 2% de la base de datos. El algoritmo detecta 90% de las anomalas analizando alrededor del 20% del total de datos.

Conclusiones
1. El algoritmo presentado en este trabajo es capaz de disminuir significativamente el tiempo para encontrar anormalidades en las bases de datos. 2. Un aprendizaje semi-supervisado nos da mejores resultados que un aprendizaje automtico o no supervisado para este caso en cuestin 3. Logramos una eficiencia mayor de anlisis de bases de datos que con un experto obteniendo buenos resultados en menos tiempo

También podría gustarte