Documentos de Académico
Documentos de Profesional
Documentos de Cultura
{liy1, raj}@computing.edu.au
Abstracto. Como el descubrimiento de las reglas de asociación en una base de datos muy
grande consume mucho tiempo,
necesita tratar solo con un pequeño conjunto de datos en comparación con la base de datos
original.
Especialmente, si los datos llegan como una corriente que fluye a una velocidad mayor que la
que se puede procesar,
el muestreo parece ser la única opción. Cómo muestrear los datos y cómo
grande el tamaño de muestra debe ser para un determinado límite de error y el nivel de
confianza es
problemas clave para tareas particulares de minería de datos. En este documento, derivamos
el suficiente
tamaño de muestra basado en el teorema del límite central para el muestreo de grandes
conjuntos de datos
con reemplazo. Este enfoque requiere un tamaño de muestra más pequeño que el basado en
1. Introducción
Algoritmos y técnicas para minar reglas de asociación en una gran base de datos estática tiene
fue introducido por primera vez en 1993 por Agrawal et al [1]. Sin embargo, extraer una base
de datos muy grande
para las reglas de asociación usualmente toma mucho tiempo. El muestreo es uno de los
enfoques
para las reglas de asociación se propuso por primera vez en [2] y se realizaron más estudios en
[3-7].
Análisis teóricos del muestreo de grandes bases de datos para reglas de asociación basadas en
binomios
realizado con reemplazo y el tamaño de muestra fue una función del error deseado
con el resto de la base de datos. Por lo tanto, los resultados no fueron aproximaciones basadas
en
Las muestras. Se usaron solo muestras para descubrir las reglas de asociación en las bases de
datos
experimentalmente evaluado en [4] para bases de datos dispersas. Dado que el tamaño de la
muestra fue empíricamente
para un tamaño de muestra dado. Un algoritmo basado en muestreo de dos fases para la
asociación
reglas fue presentado en [5]. Una gran muestra inicial fue recolectada en la Fase I para estimar
el soporte de cada elemento distinto en la base de datos y estos apoyos fueron utilizados en
fase II para seleccionar transacciones representativas en la muestra inicial para formar una
pequeña final
muestra que refleja con mayor precisión el conjunto de elementos admite en toda la base de
datos.
Sin embargo, queda la pregunta sobre cómo determinar el tamaño de muestra inicial para
garantizar
su subconjunto, es decir, la pequeña muestra final, puede descubrir con eficacia conjuntos de
elementos frecuentes.
A diferencia de [5], un método de muestreo progresivo propuesto en [7] comienza con un
pequeño
por encima de un umbral especificado por el usuario. Zhang et al [6] muestrearon grandes
bases de datos sin
reemplazo y determinó el tamaño de la muestra basado en el teorema del límite central. sin
embargo
realizado.
Mientras que el objetivo principal de muestrear una base de datos residente de disco grande
estática es reducir
la cantidad de datos que se extraerán, el muestreo parece ser la única opción para el
procesamiento
una secuencia de datos donde los datos fluyen más rápido de lo que se puede procesar [8].
Motivado
mediante el muestreo de flujos de datos para las reglas de asociación minera, investigamos el
muestreo efectivo
métodos que no solo requieren tamaños de muestra pequeños sino que también
proporcionan una aproximación
garantías.
tamaño utilizando la distribución binomial y el teorema del límite central (CLT) a través de
diferentes
mira las formas de reducir el número de conjuntos de elementos falsos frecuentes y el número
de
reglas de asociación. El análisis teórico del muestreo aleatorio para las reglas de asociación es
presentado en la sección 3 y la evaluación experimental que se muestra en la Sección 4.
Sección 5
discute los métodos para reducir los errores y la Sección 6 contiene la conclusión.
2 Reglas de asociación
Proporcionamos los términos básicos necesarios para describir las reglas de asociación
utilizando el formalismo
de [1].
Permita que I = {I1, I2, ..., Im} sea un conjunto de m elementos distintos. Una transacción T es
una no vacía