Muestreo Efectivo para Las Reglas de La Asociación Minera

Muestreo efectivo para las reglas de la asociación minera
Yanrong Li y Raj P. Gopalan
Departamento de Computación, Curtin University of Technology,
Kent Street, Bentley, Australia Occidental 6102
{liy1, raj}@computing.edu.au
Abstracto. Como el descubrimiento de las reglas de asociación en una base de datos muy
grande consume mucho tiempo,
los investigadores han desarrollado muchos algoritmos para mejorar la eficiencia.
El muestreo puede reducir significativamente el costo de la minería, ya que los algoritmos de

minería
necesita tratar solo con un pequeño conjunto de datos en comparación con la base de datos
original.
Especialmente, si los datos llegan como una corriente que fluye a una velocidad mayor que la
que se puede procesar,
el muestreo parece ser la única opción. Cómo muestrear los datos y cómo
grande el tamaño de muestra debe ser para un determinado límite de error y el nivel de
confianza es
problemas clave para tareas particulares de minería de datos. En este documento, derivamos
el suficiente
tamaño de muestra basado en el teorema del límite central para el muestreo de grandes
conjuntos de datos
con reemplazo. Este enfoque requiere un tamaño de muestra más pequeño que el basado en
en los límites de Chernoff y es efectivo para la minería de reglas de asociación. La efectividad
del método se ha evaluado en conjuntos de datos densos y dispersos.
1. Introducción
Algoritmos y técnicas para minar reglas de asociación en una gran base de datos estática tiene
se ha estudiado activamente durante más de 10 años desde que el concepto de reglas de

asociación
fue introducido por primera vez en 1993 por Agrawal et al [1]. Sin embargo, extraer una base
de datos muy grande
para las reglas de asociación usualmente toma mucho tiempo. El muestreo es uno de los
enfoques
para mejorar la eficiencia de la minería Muestreo aleatorio de grandes bases de datos
para las reglas de asociación se propuso por primera vez en [2] y se realizaron más estudios en
[3-7].
Análisis teóricos del muestreo de grandes bases de datos para reglas de asociación basadas en
binomios
la distribución y los límites de Chernoff se presentaron en [2, 3]. El muestreo fue
realizado con reemplazo y el tamaño de muestra fue una función del error deseado
límite y nivel de confianza. Los elementos frecuentes encontrados en la muestra fueron

verificados
con el resto de la base de datos. Por lo tanto, los resultados no fueron aproximaciones basadas
en
Las muestras. Se usaron solo muestras para descubrir las reglas de asociación en las bases de
datos
experimentalmente evaluado en [4] para bases de datos dispersas. Dado que el tamaño de la
muestra fue empíricamente
elegido como un determinado porcentaje de la base de datos original que es independiente de
el límite de error y el nivel de confianza, es difícil cuantificar la calidad de los resultados
para un tamaño de muestra dado. Un algoritmo basado en muestreo de dos fases para la
asociación
reglas fue presentado en [5]. Una gran muestra inicial fue recolectada en la Fase I para estimar
el soporte de cada elemento distinto en la base de datos y estos apoyos fueron utilizados en
fase II para seleccionar transacciones representativas en la muestra inicial para formar una
pequeña final
392 Y. Li y R.P. Gopalan
muestra que refleja con mayor precisión el conjunto de elementos admite en toda la base de
datos.
Sin embargo, queda la pregunta sobre cómo determinar el tamaño de muestra inicial para
garantizar
su subconjunto, es decir, la pequeña muestra final, puede descubrir con eficacia conjuntos de
elementos frecuentes.
A diferencia de [5], un método de muestreo progresivo propuesto en [7] comienza con un
pequeño
el tamaño de la muestra y aumenta progresivamente el tamaño de la muestra hasta que la

medida de similitud
por encima de un umbral especificado por el usuario. Zhang et al [6] muestrearon grandes
bases de datos sin
reemplazo y determinó el tamaño de la muestra basado en el teorema del límite central. sin
embargo
el análisis teórico detallado de errores y las evaluaciones de efectividad no fueron
realizado.
Mientras que el objetivo principal de muestrear una base de datos residente de disco grande
estática es reducir
la cantidad de datos que se extraerán, el muestreo parece ser la única opción para el
procesamiento
una secuencia de datos donde los datos fluyen más rápido de lo que se puede procesar [8].
Motivado
mediante el muestreo de flujos de datos para las reglas de asociación minera, investigamos el
muestreo efectivo
métodos que no solo requieren tamaños de muestra pequeños sino que también
proporcionan una aproximación
garantías.
En este documento, se muestrean los conjuntos de datos por sustitución y se obtiene la

muestra suficiente
tamaño utilizando la distribución binomial y el teorema del límite central (CLT) a través de
diferentes
enfoques de eso de [6]. Teóricamente analizamos la precisión de nuestro muestreo
abordar y evaluar su efectividad en conjuntos de datos densos y dispersos. Nosotros también
mira las formas de reducir el número de conjuntos de elementos falsos frecuentes y el número
de
elementos perdidos frecuentes.
El resto de este documento está organizado de la siguiente manera: la Sección 2 proporciona

las definiciones de
reglas de asociación. El análisis teórico del muestreo aleatorio para las reglas de asociación es
presentado en la sección 3 y la evaluación experimental que se muestra en la Sección 4.
Sección 5
discute los métodos para reducir los errores y la Sección 6 contiene la conclusión.
2 Reglas de asociación
Proporcionamos los términos básicos necesarios para describir las reglas de asociación
utilizando el formalismo
de [1].
Permita que I = {I1, I2, ..., Im} sea un conjunto de m elementos distintos. Una transacción T es
una no vacía
subconjunto de I identificado por un TID (T⊆I). Una base de datos D es un conjunto de N

transacciones. Un conjunto de
artículos se llama un conjunto de elementos, una

Muestreo Efectivo para Las Reglas de La Asociación Minera

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Muestreo Efectivo para Las Reglas de La Asociación Minera

Cargado por

Copyright:

Formatos disponibles

Muestreo efectivo para las reglas de la asociación minera

Yanrong Li y Raj P. Gopalan

Departamento de Computación, Curtin University of Technology,

Kent Street, Bentley, Australia Occidental 6102

los investigadores han desarrollado muchos algoritmos para mejorar la eficiencia.

El muestreo puede reducir significativamente el costo de la minería, ya que los algoritmos de

en los límites de Chernoff y es efectivo para la minería de reglas de asociación. La efectividad

del método se ha evaluado en conjuntos de datos densos y dispersos.

se ha estudiado activamente durante más de 10 años desde que el concepto de reglas de

para mejorar la eficiencia de la minería Muestreo aleatorio de grandes bases de datos

la distribución y los límites de Chernoff se presentaron en [2, 3]. El muestreo fue

límite y nivel de confianza. Los elementos frecuentes encontrados en la muestra fueron

elegido como un determinado porcentaje de la base de datos original que es independiente de

el límite de error y el nivel de confianza, es difícil cuantificar la calidad de los resultados

392 Y. Li y R.P. Gopalan

el tamaño de la muestra y aumenta progresivamente el tamaño de la muestra hasta que la

el análisis teórico detallado de errores y las evaluaciones de efectividad no fueron

En este documento, se muestrean los conjuntos de datos por sustitución y se obtiene la

enfoques de eso de [6]. Teóricamente analizamos la precisión de nuestro muestreo

abordar y evaluar su efectividad en conjuntos de datos densos y dispersos. Nosotros también

elementos perdidos frecuentes.

El resto de este documento está organizado de la siguiente manera: la Sección 2 proporciona

subconjunto de I identificado por un TID (T⊆I). Una base de datos D es un conjunto de N

artículos se llama un conjunto de elementos, una

También podría gustarte