Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DETECTANOMALY Algorithms MAS
DETECTANOMALY Algorithms MAS
el algoritmo está diseñado para la detección de anomalías genéricas; es decir, la definición de caso
anómalo
Suposiciones de datos
Datos. Este procedimiento funciona tanto con variables continuas como categóricas. Cada fila
representa
una observación distinta, y cada columna representa una variable distinta sobre la cual los grupos
de pares
se basan. Una variable de identificación de casos puede estar disponible en el archivo de datos
para marcar la salida, pero
se ignora
El modelo de detección se puede aplicar a un nuevo archivo de datos de prueba. Los elementos de
los datos de prueba deben ser los
igual que los elementos de los datos de entrenamiento. Y, dependiendo de la configuración del
algoritmo, la falta
el manejo de valores que se utiliza para crear el modelo se puede aplicar al archivo de datos de
prueba antes de la puntuación .
Orden de casos. Tenga en cuenta que la solución puede depender del orden de los casos. Para
minimizar los efectos de orden,
ordenar aleatoriamente los casos. Para verificar la estabilidad de una solución dada, es posible que
desee obtener varias
diferentes soluciones con casos ordenados en diferentes órdenes aleatorios. En situaciones con
extremadamente grandes
tamaños de archivo, se pueden realizar múltiples ejecuciones con una muestra de casos
ordenados en diferentes órdenes aleatorios.
Suposiciones. El algoritmo asume que todas las variables son no constantes e independientes y
que ningún caso tiene valores faltantes para ninguna de las variables de entrada. Cada variable
continua es
se supone que tiene una distribución normal (gaussiana), y se supone que cada variable categórica
tienen una distribución multinomial. Las pruebas internas empíricas indican que el procedimiento
es bastante
robusto a las violaciones tanto del supuesto de independencia como de los supuestos
distributivos,
Notación
La siguiente notación se utiliza a lo largo de este capítulo a menos que se indique lo contrario:
Mk, k ∈ {1, … , K} Si Xok es una variable continua, Mk representa la gran media o promedio de
SDk , k ∈ {1, … , K} Si Xok es una variable continua, SDk representa la gran desviación estándar ,
Algoritmos DETECTANOMALIA
H, o los límites de H:
[ Hmín , Hmáx ]
Los límites [ Hmin , Hmax ] se pueden usar para especificar el mínimo y el máximo
Mhk , k = 1, …, K+1, h = 1,
…, H
= 1, …, H
1, …, H, j = 1, …, Jk
en la categoría j.
…, K+1}.
contribución variable
medida
La medida de contribución variable de la variable Xk para un caso es la razón de
variables consideradas como las razones por las que el caso es identificado como una anomalía.
se almacenan las estadísticas utilizadas para calcular las normas de los grupos de conglomerados.
Puntuación. El modelo se aplica a cada caso para identificar su grupo de conglomerados y algunos
índices son
creado para cada caso para medir la inusualidad del caso con respecto a su grupo de
conglomerados.
Todos los casos están ordenados por los valores de los índices de anomalía. La parte superior de la
lista de casos es
Razonamiento. Para cada caso anómalo, las variables se ordenan por su variable correspondiente
índices de desviación. Se presentan las principales variables, sus valores y los valores normalizados
correspondientes.
como las razones por las que un caso se identifica como una anomalía.
Etapa de modelado
Algoritmos DETECTANOMALIA
el manejo no está en efecto, también elimine los casos con un valor faltante en cualquier variable.
Eliminar variables
con todos los valores constantes que no faltan o todos los valores que faltan. El resto de casos y
variables son
basado en este conjunto de entrenamiento, pero las variables guardadas en el conjunto de datos
se calculan para todos los casos.
2. Gestión de valores perdidos (opcional). Para cada variable de entrada Xok , k = 1, …, K, si Xok es
un
variable continua, use todos los valores válidos de esa variable para calcular la gran media Mk y la
gran
desviación estándar SDk . Reemplace los valores faltantes de la variable por su gran media. Si Xok
es un
variable categórica, combine todos los valores faltantes en una categoría de "valor faltante". Esta
categoría es
tratada como una categoría válida. Denote la forma procesada de { Xok } por { Xk }.
3. Creación de la variable de porcentaje de valor faltante (opcional). Una nueva variable continua,
XK+1, es
creado que representa el porcentaje de variables (tanto continuas como categóricas) con faltantes
activado (consulte el documento del algoritmo TwoStep Cluster para obtener más información).
media Mhk y desviación estándar SDhk de la variable a partir de los casos del conglomerado h. Si
Xk es
una variable categórica, almacene la frecuencia nhkj de cada categoría j de la variable en función
de la
casos en el grupo h. Almacene también la categoría modal Mhk . Estas estadísticas suficientes se
utilizarán
Etapa de puntuación
Esta etapa realiza las siguientes tareas sobre la calificación (prueba o entrenamiento) de los datos:
1. Selección de nueva categoría válida. Los datos de puntuación deben contener las variables de
entrada { Xok,k = 1,
mismos que los del archivo de datos de entrenamiento durante la Etapa de Modelado.
Los casos en los datos de puntuación se descartan si contienen una variable categórica con un
valor válido.
categoría que no aparece en los datos de entrenamiento. Por ejemplo, si Región es una variable
categórica
con categorías IL, MA y CA en los datos de entrenamiento, un caso en los datos de puntuación que
tiene una validez
Algoritmos DETECTANOMALIA
2. Gestión de valores perdidos (opcional). Para cada variable de entrada Xok , si Xok es un
continuo
variable, use todos los valores válidos de esa variable para calcular la gran media Mk y el gran
estándar
desviación SDk . Reemplace los valores faltantes de la variable por su gran media. Si Xok es un
variable categórica, combine todos los valores faltantes y cree una categoría de valor faltante. Este
se trata la categoría
4. Asigne cada caso a su grupo sin ruido más cercano. El modelo de agrupamiento de la
La etapa de modelado se aplica a las variables procesadas del archivo de datos de puntuación para
crear un grupo
DNI para cada caso. Los casos que pertenecen al grupo de ruido se reasignan a su no ruido más
cercano
grupo. Consulte el documento del algoritmo TwoStep Cluster para obtener más información sobre
el clúster de ruido.
5. Calcular Índices de Desviación Variable. Dado un caso s, se encuentra el grupo h más cercano. La
variable
…,K +1}.
7. Calcular Índice de Anomalía y Medidas de Contribución Variable. Dos índices adicionales son
calculados que son más fáciles de interpretar que el índice de desviación de grupo y la desviación
variable
índice.
El índice de anomalía de un caso es una alternativa al GDI, que se calcula como la razón de la
GDI del caso al GDI promedio del clúster al que pertenece el caso. valores crecientes de este
La medida de contribución variable de una variable de un caso es una alternativa al VDI, que es
calculado como la relación entre el VDI de la variable y el GDI del caso. Esta es la contribución
proporcional
de la variable a la desviación del caso. Cuanto mayor sea el valor de esta medida, mayor
La situación en la que el GDI de un caso es cero y el GDI promedio del grupo que el caso
pertenece también es cero es posible si el grupo es un singleton o está formado por casos
idénticos y
el caso en cuestión es el mismo que los casos idénticos. Si este caso se considera como un
o pequeño. Por ejemplo, suponga que hay un total de 10 casos en el entrenamiento y dos grupos
son
resultó en que un grupo es un singleton; es decir, compuesto de un caso, y el otro tiene nueve
casos. En esta situación, el caso en el clúster singleton debe considerarse como una anomalía, ya
que
no pertenece al grupo más grande. Una forma de calcular el índice de anomalía en esta situación
es
configúrelo como la relación entre el tamaño promedio del conglomerado y el tamaño del
conglomerado h, que es:
Algoritmos DETECTANOMALIA
Siguiendo el ejemplo de 10 casos, el índice de anomalía para el caso que pertenece al clúster
singleton
sería (10/2)/1 = 5, que debería ser lo suficientemente grande para que el algoritmo lo detecte
como una anomalía.
La situación en la que el GDI de un caso es distinto de cero pero el GDI promedio del grupo que el
caso
y el caso en cuestión no es el mismo que los casos idénticos. Supongamos que el caso i pertenece
al clúster
h, que tiene un GDI promedio de cero; es decir, promedio(GDI)h = 0, pero el GDI entre el caso i y
el grupo h es distinto de cero; es decir, GDI( i , h) ≠ 0. Una opción para el cálculo del índice de
anomalía del caso i
podría ser establecer el denominador como el GDI promedio ponderado sobre todos los demás
grupos si este valor es
no 0; de lo contrario, establezca el cálculo como la relación entre el tamaño promedio del clúster y
el tamaño del clúster h. Eso es,
si
de lo contrario
Esta situación desencadena una advertencia de que el caso se asigna a un grupo que se compone
de idénticos
casos.
Etapa de razonamiento
Cada caso ahora tiene un índice de desviación de grupo y un índice de anomalía y un conjunto de
desviación variable
índices y medidas de cotización variable. El propósito de esta etapa es clasificar los posibles
casos anómalos y proporcionar las razones para sospechar que son anómalos.
1. Identificar los Casos Más Anómalos. Ordenar los casos en orden descendente sobre los valores
de los
sujeto
a la restricción de que los casos con un índice de anomalía menor o igual a la anomalía del punto
de corte no son
considerado anómalo.
2. Proporcionar Razones para Considerar un Caso Anómalo. Para cada caso anómalo, ordene el
variables por sus correspondientes valores VDIk en orden descendente. La variable de kanomalia
superior
se muestran los nombres, su valor (de la correspondiente variable original Xok ), y los valores de la
norma
un razonamiento
El algoritmo de agrupamiento de dos pasos consta de: (a) un paso previo al agrupamiento que
agrupa previamente los casos en
muchos sub-clusters y (b) un paso de cluster que agrupa los sub-clusters resultantes del pre-
cluster
dónde
Algoritmos DETECTANOMALIA
donde > 0 es un ajuste positivo incluido en la fórmula para evitar el logaritmo de cero en
dónde
Para obtener más información, consulte el tema “Algoritmos de CLUSTER DE DOS PASOS”.