Está en la página 1de 6

Running title November 2012 Vol. XXI, No.

Minera de Reglas de Correlacin


Difusa
NANCY P. LIN, HAO-EN CHUEH
Departamento de Ciencias de la Computacin e Ingeniera de la Informacin,
Universidad de Tamkang

151 Ying-chuan Road, Tamsui, Taipei,


nancylin@mail.tku.edu.tw, 890190134@s90.tku.edu.tw
Abstract
En general la minera de reglas de asociacin difusa se centra en la bsqueda de los conjuntos de items
difusos o atributos difusos que a menudo se presentan juntos en una base de datos. Sin embargo, dos
conjuntos de items difusos los cuales frecuentemente ocurren juntos no siempre implica que tengan una
relacin interesante entre ellos. En este trabajo, desarrollamos un marco alternativo para la minera de
relaciones interesantes entre conjuntos de items difusos basados en el anlisis de correlacin difusa entre
intems difusos, donde a este tipo de de relaciones se les suele llamar reglas de correlacin difusa. El anlisi
de dichas reglas de correlacin difusa ayuda a mostrar la fuerza y el tipo de relacin existente entre dos o
mas conjuntos de items difusos, evitando con ello generar reglas de correlacin engaosas o sin relevancia.

I.

Introduccin

La minera de datos es a menudo definida


como la bsqueda de informacin oculta a partir de un gran conjunto de datos, y uno de los
objetivos mas populares de la minera de datos
es la minera de reglas de asociacin. La Minera de reglas de asociacin es un proceso para
determinar los conjuntos de items que con frecuencia ocurren juntos en un gran conjunto de
datos. Es ampliamente utilizado en los negocios al por menor para identificar los productos
que se compran juntos con mucha frecuencia.
Claramente este tipo de informacin es til
para ayudar en la toma de decisiones de marketing.
Sin embargo, en los conjuntos de datos prcticos, los datos pueden ser borrosos, pero tiles,
esperando para ser explorados, y los mtodos
para encontrar las reglas de asociacin de estos conjuntos de datos difusos son ciertamente
necesarios. Para alcanzar este objetivo, la teora
de conjuntos difusos es comnmente usada, y
las reglas descubiertas son llamadas reglas de
asociacin difusa.
A

Se han propuesto muchos algoritmos de


minera de reglas de asociacin difusa para el
varios conjuntos de datos difusos, y la mayora
de los algoritmos emplean un marco de apoyo
en si mismo. En estos algoritmos, el soporte
minimo y confidencia minima son usados para
elegir reglas de asociacin difusa interesantes
de los itemsets difusos que frecuentemente
ocurren juntos.
Sin embargo, una situacin necesita ser pensada aqu, si un itemset difuso casi ocurre en
todos los registros, entonces es mas probable
que ocurra con frecuencia con otros itemsets
difusos, pero la relacin entre estos itemsets
difusos puede no ser interesante de hecho.
Por lo tanto, un marco alternativo para impedir
la generacin de reglas difusos engaosas es
una necesidad. Por consiguiente, en este trabajo, desarrollamos un nuevo algoritmo para
minera de relaciones interesantes entre itemsets basados en anlisis de correlacin difuso,
y as, las reglas difusas descubiertas son llamadas reglas de correlacin difusa.

thank you or further information

Running title November 2012 Vol. XXI, No. 1

Este trabajo est organizado de la siguiente


manera: En la seccin 2, algunos conceptos
bsicos de la minera de reglas de asociacin
difusa son mencionados. En la seccin 3, el
concepto principal de nuestro algoritmo de
minera de reglas de asociacin difusa propuesto, el anlisis de correlacin difuso , es
introducido. En la seccin 4, como usar el
anlisis de correlacin difusa en nuestro algoritmo se explica. En la seccin 5, un ejemplo
de minera de reglas de correlacin difusa es
dado. Y finalmente en la seccin 6 se da nuestra conclusisn.

II.

Minera de Reglas de
Asociacin Difusa

La minera de reglas de asociacin difusa es un


proceso para encontrar los itemsets difusos o
atributos difusos que frecuentemente ocurren
juntos en un conjunto de datos difuso.
Dado F = { f 1 , f 2 , ..., f m } sea un conjunto de elementos difusos, T = {t1 , t2 , ..., tn } sea un conjunto de registros de datos difusos, y en cada
registro ti es representado como un vector de
m valores, ( f 1 (ti ), f 2 (ti ), ..., f m (ti )), donde f j (ti )
es un grado de membresa que ti seguido a un
elemento difuso f j y f j (ti ) [0, 1]. Una regla
de asociacin difusa es definida como una implicacin de la forma FX , FY , donde FX , FY F
son itemsets difusos, x,y f x FX 6= f y FY
Una regla de asociacin difusa, dice que
FX FY , sostiene en el conjunto de datos difuso T con un soporte difuso ( f (supp{ FX , FY })
y que la confidencia difusa ( f con f ( FX FY )
es definida como sigue:
f supp({ FX , FY }) =
in=1 min( f j (ti )| f j { FX ,FY })
(1)
n

f con f ( FX FY ) =

f supp({ FX , FY })
f supp( FX )

(2)

Si f supp({ FX , FY }) es mayor o igual que el


soporte mnimo difuso definido por el usuario
2

s f y f con f ( FX FY ) es tambin mejor que o


igual a la confidencia mnima difusa definida
por el usuario (c f ), entonces, la regla de asociacin difusa FX FY es considerado como
una regla de asociacin difusa interesante, y
esto se refiere que FX yFY frecuentemente se
producen juntos en mismos registros.
Ahora, considerando un caso especial, si un
conjunto de itemsets difuso es comn, y casi
ocurre en todos los registros de datos difusos,
de acuerdo con la frmula (1) y la frmula (2),
lo mas probable es obtener algunas reglas de
asociacin difusas interesantes en relacin con
este itemset difuso.
Pero, de hecho, la aparicin de este conjunto de
elementos difusos no implica la existencia de
otro conjunto de elementos difusos, las reglas
descubiertas son engaosas. Algunos investigadores han notado este problema, por lo que
se volvi a adoptar medidas alternativas que
pueden mostrar informacin adicional sobre
las relaciones entre los conjuntos de elementos
en los procesos de minera.
En el soporte hay dos itemsets, A y B, y la
probabilidad que A ocurra en el conjunto de
datos dado es expresado como P( A; ); la probabilidad que B ocurra es expresado como P( B);
la probabilidad que A y B que ocurren juntos
es expresado como P( A, B). Entonces la correlacin de la regla de asociacin A B puede
ser expresada como correl ( A B).
correl ( A B) =

P( A, B)
P( A) P( B)

(3)

La evaluacin derivada de la frmula (3)


miente [0, ]. Si correl ( A B) es mejor
que 1, entonces A y B son positivos conexos,
significando, que la ocurrencia de uno implica la ocurrencia del otro; si correl ( A B)
es menor que 1, entonces la ocurrencia de
uno est negativamente relacionado con la
ocurrencia de la otra; la ocurrencia de uno es
independiente de la ocurrencia de la otra si
P( A, B) = P( A) P( B).
Sin embargo, este tipo de frmula basada en
probabilidad no es adecuada para analizar la
relacin entre itemsets difusos, y as, en orden
para encontrar las relaciones interesantes entre

Running title November 2012 Vol. XXI, No. 1

itemsets difusos, en este trabajo, el anlisis de


correlacin difusa definida en la seccin 3 se
adopta para construir un nuevo algoritmo de
minera de reglas de correlacin difusa. Los
conceptos del anlisi de correlacin difusa y
como usar el anlisis de correlacin difusa en
nuestro algoritmo propuesto sera el prximo
en ser explicado.

III.

Anlisis de Correlacin
Difusa

El coeficiente del anlisis de correlacin difusa de conjuntos difusos es llamada coeficiente de correlacin difusa. Muchos mtodos han sido propuestos para calcular el coeficiente de correlacin difusa; aqu, adoptamos la frmula derivada por Lin, porque esto
puede proveer de informacin extra que necesitamos. Suponiendo que hay dos itemsets difusos A, B F, donde F es un espacio difuso. A
y B son definidos en un conjunto universal quebradizo X con funciones de membresa A y B ,
y as los itemsets A y B pueden ser expresados
de la siguiente manera:
A = ( x, A ( x )) | x X

B = ( x, B ( x )) | x X

in=1 A ( xi )
n

(8)

B =

in=1 B ( xi )
n

(9)

SA2 =

in=1 ( A ( xi ) A )2
n1

(10)

SB 2 =

in=1 ( B ( xi ) B )2
n1

(11)

SA =

q
SB =

SA2

(12)

SB 2

(13)

El valor derivado de (6) se encuentra entre


[1, 1], y algunas propiedades importantes de
el coeficiente de relacin difusa se expresa de
la siguiente manera [4,10]:

(4)

1. Si |r A,B | est cerca de 1, entonces los itemsets difusos A y B estn altamente relacionados.

(5)

2. Si |r A,B | est cerca de 0, entonces los itemsets difusos A y B apenas estn relacionados.

donde A , B [0, 1].


Asumiendo que
hay una muestra aleatoria x1 , x2 , ..., xn X,
solo con una secuencia de pares de datos,
{( xi , A ( xi ), B ( xi )) = 1...n}, que corresponde
a los grados de la funcin de membresa de
los itemsets difusos A y B definidos en X. Entonces el coeficiente de correlacin difusa entre
los itemsets difusos A y B, r A,B es:
q
r A,B = S A,B S2A S2B
(6)
donde
S A,B =

A =

nI=1 ( A ( xi A ) | ( B ( xi B ))
n1
(7)

3. Si r A,B > 0, entonces los itemsets difusos


A y B estn positivamente relacionados.
4. Si r A,B < 0, entonces los itemsets difusos
A y B estn negativamente relacionados.
5. Si r A,B = 0, entonces los itemsets difusos
A y B no tienen ninguna relacin en lo
absoluto.
De acuerdo con las propiedades anteriores,
el coeficiente de correlacin difusa es de gran
utilidad para la minera de relaciones interesantes entre itemsets difusos. A continuacin,
como usar el anlisis de correlacin difusa en
nuestro algoritmo de minera de reglas de correlacin difusa sern contabilizadas.
3

Running title November 2012 Vol. XXI, No. 1

IV.

Minera de Reglas de
Correlacin Difusa

En esta seccin, se explica nuestro algoritmo de minera de reglas de correlacin


difusa propuesto.
Asumiendo que F =
{ f 1 , f 2 , ..., f m } es un conjunto de items difusos; T = {t1 , t2 , ..., tn } es un conjunto de registro de datos difuso, y cada registro ti es
representado como un vector con m valores,
( f 1 (ti ), f 2 (ti ), ..., f m (ti )), donde f j (ti ) es un
grado de membresa que ti pertenece a un item
difuso f j ( porejemplo, f j ( Ti ) = f j (ti )), f j (ti )
[0, 1]; s f es el soporte difuso mnimo de un
usuario predefinido;c f es la confianza difusa
mnima de un usuario predefinido; es la
correlacin difusa mnima de un usuario predefinido. Entonces, el proceso de nuestro algoritmo de minera de reglas de correlacin
difusa es descrito en los siguientes pasos:
Paso 1: Para cada item difuso
F, f supp( f i ) se calcula.

fi

Paso 2: Dado L1 = {( Fi | Fi F, f supp( Fi )


s f )} es el conjunto de itemsets frecuentes
difusos cuyo tamao es igual a 1.
Paso 3: Dado L1 = {( FA , FB ) es el conjunto de
combinaciones candidatas de dos itemsets difusos de L1 , donde FA , FB FA
FB , que es, C2 es generado por L1 conjunta con L1 , el nmero de items difusos
de cada elemento de C2 es 2.
Paso 4: Para cada elemento de C2 ,
dice ( FA , FB ),
el soporte difuso
( f supp({ FA , FB })) y el coeficiente de
correlacin difusa entre FA y FB (r A,B ) es
calculado. Si f supp({ FA , FB }) es mayor
o igual a , entonces la combinacin
( FA , FB ) es un elemento de L2 . Por lo
tanto, L2 es el conjunto de grandes (o frecuentes) combinaciones de dos conjuntos
de elementos difusos de L1 .
Paso 5: De inmediato, cada Ck 3, puede
ser generado por Lk1 conjunto con el
mismo. Suponiendo ( FW , FX ) y ( FY , FZ ),
son dos elementos de Lk1 , y uno de los
4

itemsets difusos de ( FW , FX ), es decir FX


es igual a uno de los itemsets difusos
de FY , FZ , es decir FY , y el total de numeros de items difusos de la combinacin
( FX , { FW , FZ ) es igual a k, y ( FW , FZ ) es
adems una gran combinacin de dos
itemsets difusos, entonces la combinacin
( FX , { FW , FZ }) ser un elemento de Ck . A
continuacin, para cada elemento de Ck ,
el soporte difuso y el coeficiente de correlacin difusa todava se usa para seleccionar elementos de Lk .

Paso 6: Donde cada Lk , k 2, es obtenido,


por cada elemento de Lk , es decir ( FI , FJ ),
dos reglas difusas, FI FJ y FJ FI ,
puede ser generado. Si la confidencia difusa de una reglas es mayor que o igual
a c f , entonces esto es considerado como
una regla de correlacin interesante difusa. El algoritmo no se detendr hasta
que la prxima Ck+1 pueda ser generada. Un simple ejemplo es mostrado en
la siguiente seccin.

V.

Ejemplo

Un ejemplo de un conjunto de datos se muestra como en la Tabla 1. F = { f 1 , f 2 , f 3 , f 4 , f 5 , }


y T = {t1 , t2 , t3 , t4 , t5 , t6 , t7 , t8 , t9 , t10 , }. Asumiendo que s f es un conjunto para 0.30, c f es un
conjunto para 0.75, y es un conjunto para 0.4.

Tabla 1: Una muestra de un conjunto de


datos difuso.

Running title November 2012 Vol. XXI, No. 1

H
HH F
H
T
H
t1
t2
t3
t4
t5
t6
t7
t8
t9
t10

f1

f2

f3

f4

f5

0.1
0.2
0.2
0.4
0.7
0.5
0.8
0.7
0.8
0.2

0.9
0.8
0.7
0.5
0.3
0.6
0.1
0.1
0.4
0.7

0.3
0.4
0.1
0.6
0.4
0.7
0.9
0.5
0.3
0.2

0.5
0.8
0.3
0.1
0.8
0.9
0.4
0.2
0.5
0.44

0.3
0.4
0.5
0.1
0.2
0.8
0.9
0.7
0.6
0.55

Table 1: El soporte difuso de cada item difuso de F

Primero, el soporte difuso de cada item difuso de F es calculado y litado en la Tabla 2.

Table 2: El soporte difuso de cada item difuso de F

F
f1
f2
f3
f4
f5

Soportedi f uso
0.46
0.51
0.44
0.49
0.50

Table 3: El soporte difuso y el coeficiente de correlacin


difuso de cada elemento de C2 .

C2

({ f 1 }, { f 2 })
({ f 1 }, { f 3 })
({ f 1 }, { f 4 })
({ f 1 }, { f 5 })
({ f 2 }, { f 3 })
({ f 2 }, { f 4 })
({ f 2 }, { f 5 })
({ f 3 }, { f 4 })
({ f 3 }, { f 5 })
({ f 4 }, { f 5 })

Soporte
Difuso
0.25
0.35
0.31
0.36
0.29
0.36
0.32
0.31
0.37
0.36

Coeficiente de
correlacin difuso
-0.91
0.54
0.01
0.44
-0.56
0.25
-0.41
0.08
0.43
0.10

En la Tabla 3, un elemento cuyo soporte


difuso es mayor o igual a s f y el coeficiente de
correlacin difuso es mayor que o igual a es
considerado un elemento de L2 .
L2 = {({ f 1 }, { f 3 }), ({ f 1 }, { f 5 }), ({ f 3 }, { f 5 })}.
Donde L2 es obtenido, C3 puede ser
generado por L2 junto con L2 .
C3 =
{({ f 1 }, { f 3 , f 5 }), ({ f 3 }, { f 1 , f 5 }), ({ f 5 }, { f 1 , f 3 })}.
Del mismo modo, el soporte difuso y el coeficiente de correlacin difusa de cada elemento
de C3 son adems calculados y se muestran en
la Tabla 4.
Table 4: El soporte difuso y el coeficiente de correlacin
difuso de cada elemento de C3 .

Porque el f supp( f i ), i = 1...5, son


todas mayores que s f , nosotros obtuvimos el conjunto de la frecuencia de los
itemsets difusos cuyo tamao es igual a
1, L1 .
L1 = { f 1 , f 2 , f 3 , f 4 , f 5 }.
A continuacin, el conjunto de combinaciones
candidatas de dos itemsets difusos de
L1 , C2 , es generado por L1 conjunta con si
mismo. As, C2 = {( f 1 , f 2 ), ( f 1 , f 3 ), ( f 1 , f 4 ),
( f 1 , f 5 ), ( f 2 , f 3 ), ( f 2 , f 4 ), ( f 2 , f 5 ), ( f 3 , f 4 ), ( f 3 , f 5 ),
( f 1 , f 4 )}.
Para cada elemento de C2 , el soporte difuso y
el coeficiente de correlacin difuso son calculados y listados en la Tabla 3.

C3

({ f 1 }, { f 3 , f 5 })
({ f 3 }, { f 1 , f 5 })
({ f 5 }, { f 1 , f 3 })

Soporte
Difuso
0.30
0.30
0.30

Coeficiente de
correlacin difuso
0.47
0.57
0.55

En la Tabla 4, porque todos los elementos


de C3 satisfacen el mnimo soporte difuso (s f )
y el mnimo soporte difuso (), todos los elementos de C3 son elementos de L3 .
L3 = {({ f 1 }, { f 3 , f 5 }), ({ f 3 }, { f 1 , f 5 }), ({ f 5 },
{ f 1 , f 3 })}. No prximo a C4 puede ser generado por L3 junto con L3 , por lo que nuestro
5

Running title November 2012 Vol. XXI, No. 1

algoritmo se detiene aqu. Solo 2 conjuntos


de combinaciones frecuentes de dos itemsets
difusos son obtenidos, L2 y L3 , de L2 y L3 , 14
reglas candidatas de correlacin difusa pueden
ser generadas. La confidencia de estas reglas
son mostradas como un Tabla 5.
Table 5: La confidencia difusa de las reglas candidatas
de correlacin difusa.

C2

{ f1 } { f3 }
{ f3 } { f1 }
{ f1 } { f5 }
{ f5 } { f1 }
{ f2 } { f4 }
{ f4 } { f2 }
{ f3 } { f5 }
{ f5 } { f3 }
{ f1 } { f3 , f5 }
{ f3 , f5 } { f1 }
{ f3 } { f1 , f5 }
{ f1 , f5 } { f3 }
{ f5 } { f1 , f3 }
{ f1 , f3 } { f5 }

Confidencia
Difusa
0.76
0.80
0.78
0.72
0.71
0.74
0.84
0.74
0.65
0.81
0.68
0.83
0.60
0.86

VI.

De acuerdo a la Tabla 5, determinamos 7


reglas interesantes de correlacin difusa como
las siguientes, porque sus confidencias difusas
son mayores o igual a la confidencia mnima
difusa predefinida c f , c f aqu es 0.75.

{ f1 } { f3 }

(14)

{ f3 } { f1 }

(15)

{ f1 } { f5 }

(16)

{ f3 } { f5 }

(17)

{ f3 , f5 } { f1 }

(18)

{ f1 , f5 } { f3 }

(19)

{ f1 , f5 } { f5 }

(20)

A partir de este ejemplo, podemos ver claramente que, el nmero de combinaciones frecuentes de itemsets difusos es reducido. Por
6

ejemplo, el nmero de los elementos de C2 es


10, y en estos elementos, el nmero de elementos que satisfacen s f es 8, pero despus de las
pruebas del coeficiente de correlacin difusa,
el nmero de elementos que pertenecen a L2
es 4. As, concluimos que, solo realmente las
relaciones interesantes entre itemsets difusos
pueden ser descubiertos mediante el uso de
nuestro algoritmos propuesto.

Conclusin

En este trabajo, un nuevo algoritmo de minera


de reglas de correlacin difusa es propuesto.
En general la minera de reglas de asociacin
en el descubrimiento los itemsets difusos o
atributos difusos que frecuentemente ocurren
juntos. Estas reglas descubiertas son llamadas
reglas de asociacin difusa. Sin embargo, dos
itemsets difusos que frecuentemente ocurren
juntos no se suponen que siempre hay una
relacin interesante entre ellos. Para hacer
frente a esta situacin, el anlisis de correlacin
difusa es implementado para asistir en el descubrimiento de reglas de asociacidifusa.
De acuerdo al ejemplo en la seccin 5, vemos
claramente que, mediante el uso de nuestro
algoritmo propuesto, itemsets difusos que frecuentemente ocurren juntos pero no son realmente interesantes pueden ser eliminados eficientemente.