Está en la página 1de 4

Muestreo efectivo para las reglas de la asociación minera

Yanrong Li y Raj P. Gopalan

Departamento de Computación, Curtin University of Technology,

Kent Street, Bentley, Australia Occidental 6102

{liy1, raj}@computing.edu.au

Abstracto. Como el descubrimiento de las reglas de asociación en una base de datos muy
grande consume mucho tiempo,

los investigadores han desarrollado muchos algoritmos para mejorar la eficiencia.

El muestreo puede reducir significativamente el costo de la minería, ya que los algoritmos de


minería

necesita tratar solo con un pequeño conjunto de datos en comparación con la base de datos
original.

Especialmente, si los datos llegan como una corriente que fluye a una velocidad mayor que la
que se puede procesar,

el muestreo parece ser la única opción. Cómo muestrear los datos y cómo

grande el tamaño de muestra debe ser para un determinado límite de error y el nivel de
confianza es

problemas clave para tareas particulares de minería de datos. En este documento, derivamos
el suficiente

tamaño de muestra basado en el teorema del límite central para el muestreo de grandes
conjuntos de datos

con reemplazo. Este enfoque requiere un tamaño de muestra más pequeño que el basado en

en los límites de Chernoff y es efectivo para la minería de reglas de asociación. La efectividad

del método se ha evaluado en conjuntos de datos densos y dispersos.

1. Introducción

Algoritmos y técnicas para minar reglas de asociación en una gran base de datos estática tiene

se ha estudiado activamente durante más de 10 años desde que el concepto de reglas de


asociación

fue introducido por primera vez en 1993 por Agrawal et al [1]. Sin embargo, extraer una base
de datos muy grande
para las reglas de asociación usualmente toma mucho tiempo. El muestreo es uno de los
enfoques

para mejorar la eficiencia de la minería Muestreo aleatorio de grandes bases de datos

para las reglas de asociación se propuso por primera vez en [2] y se realizaron más estudios en
[3-7].

Análisis teóricos del muestreo de grandes bases de datos para reglas de asociación basadas en
binomios

la distribución y los límites de Chernoff se presentaron en [2, 3]. El muestreo fue

realizado con reemplazo y el tamaño de muestra fue una función del error deseado

límite y nivel de confianza. Los elementos frecuentes encontrados en la muestra fueron


verificados

con el resto de la base de datos. Por lo tanto, los resultados no fueron aproximaciones basadas
en

Las muestras. Se usaron solo muestras para descubrir las reglas de asociación en las bases de
datos

experimentalmente evaluado en [4] para bases de datos dispersas. Dado que el tamaño de la
muestra fue empíricamente

elegido como un determinado porcentaje de la base de datos original que es independiente de

el límite de error y el nivel de confianza, es difícil cuantificar la calidad de los resultados

para un tamaño de muestra dado. Un algoritmo basado en muestreo de dos fases para la
asociación

reglas fue presentado en [5]. Una gran muestra inicial fue recolectada en la Fase I para estimar

el soporte de cada elemento distinto en la base de datos y estos apoyos fueron utilizados en

fase II para seleccionar transacciones representativas en la muestra inicial para formar una
pequeña final

392 Y. Li y R.P. Gopalan

muestra que refleja con mayor precisión el conjunto de elementos admite en toda la base de
datos.

Sin embargo, queda la pregunta sobre cómo determinar el tamaño de muestra inicial para
garantizar

su subconjunto, es decir, la pequeña muestra final, puede descubrir con eficacia conjuntos de
elementos frecuentes.
A diferencia de [5], un método de muestreo progresivo propuesto en [7] comienza con un
pequeño

el tamaño de la muestra y aumenta progresivamente el tamaño de la muestra hasta que la


medida de similitud

por encima de un umbral especificado por el usuario. Zhang et al [6] muestrearon grandes
bases de datos sin

reemplazo y determinó el tamaño de la muestra basado en el teorema del límite central. sin
embargo

el análisis teórico detallado de errores y las evaluaciones de efectividad no fueron

realizado.

Mientras que el objetivo principal de muestrear una base de datos residente de disco grande
estática es reducir

la cantidad de datos que se extraerán, el muestreo parece ser la única opción para el
procesamiento

una secuencia de datos donde los datos fluyen más rápido de lo que se puede procesar [8].
Motivado

mediante el muestreo de flujos de datos para las reglas de asociación minera, investigamos el
muestreo efectivo

métodos que no solo requieren tamaños de muestra pequeños sino que también
proporcionan una aproximación

garantías.

En este documento, se muestrean los conjuntos de datos por sustitución y se obtiene la


muestra suficiente

tamaño utilizando la distribución binomial y el teorema del límite central (CLT) a través de
diferentes

enfoques de eso de [6]. Teóricamente analizamos la precisión de nuestro muestreo

abordar y evaluar su efectividad en conjuntos de datos densos y dispersos. Nosotros también

mira las formas de reducir el número de conjuntos de elementos falsos frecuentes y el número
de

elementos perdidos frecuentes.

El resto de este documento está organizado de la siguiente manera: la Sección 2 proporciona


las definiciones de

reglas de asociación. El análisis teórico del muestreo aleatorio para las reglas de asociación es
presentado en la sección 3 y la evaluación experimental que se muestra en la Sección 4.
Sección 5

discute los métodos para reducir los errores y la Sección 6 contiene la conclusión.

2 Reglas de asociación

Proporcionamos los términos básicos necesarios para describir las reglas de asociación
utilizando el formalismo

de [1].

Permita que I = {I1, I2, ..., Im} sea un conjunto de m elementos distintos. Una transacción T es
una no vacía

subconjunto de I identificado por un TID (T⊆I). Una base de datos D es un conjunto de N


transacciones. Un conjunto de

artículos se llama un conjunto de elementos, una

También podría gustarte