Está en la página 1de 25

Reglas de asociación

• Patrones frecuentes: son patrones que aparecen


recurrentemente en conjuntos de datos.
• Minería de patrones frecuentes: Trata del
Antecedentes descubrimiento de asociaciones y correlaciones
entre “ítems” en grandes conjuntos de datos.
• El descubrimiento de estas relaciones suele ser
utilizado en:
• Diseño de catálogos de productos
• Cross Marketing
• Análisis de los hábitos de consumo de los clientes
• Una regla de asociación es una proposición probabilística
sobre la ocurrencia de ciertos estados dentro de una
base de datos.
• Este tipo de reglas suelen expresar patrones de
comportamiento entre los grupos de datos los cuales
Definición dependen de la presencia conjunta de valores de dos o
más atributos.
• A diferencia de otras técnicas, las cuales trabajan con
atributos numéricos, las reglas de asociación trabajan
con atributos nominales.
• Aplicaciones típicas de las reglas de asociación:
• Análisis de la cesta de compra en supermercados
• Análisis de textos
• Descubrimiento de patrones de visitas en páginas web
• Reglas de asociación unidireccional (dependencias de
valor).- interpretadas en un solo sentido y sin
significado alguno en el sentido inverso.
• Reglas de asociación bidireccional.- Para eventos que
Tipos de reglas de suceden conjuntamente y pueden ser interpretadas en
forma bidireccional.
asociación
• Reglas de asociación negativas.- cuando los atributos
tienen más de dos valores posibles es posible incluir
desigualdades.
• Reglas de asociación secuenciales.- cuando las
asociaciones ocurren en instantes de tiempo distintos.
• Reglas de asociación multinivel.- cuando los atributos
admiten categorías.
Caso de estudio: cesta de compras

Vino Refresco Tequila Agua Pan Galletas Chocolate

Cesta 1 1 1 0 0 0 1 0
Cesta 2 0 1 1 0 0 0 0
Cesta 3 0 0 0 1 1 1 0
Cesta 4 1 1 0 1 1 1 1
Cesta 5 0 0 0 0 0 1 0
Cesta 6 1 0 0 0 0 1 1
Cesta 7 0 1 1 1 1 0 0
Cesta 8 0 0 0 1 1 1 1
Cesta 9 1 1 0 0 1 0 1
1 EL CLIENTE HA ADQUIRIDO EL PRODUCTO
Cesta 10 0 1 0 0 1 0 0
0 EL CLIENTE NO HA ADQUIRIDO EL PRODUCTO
• A partir del análisis de la tabla anterior podemos
obtener, por simple observación, un par de
reglas de asociación:
1. SI agua y pan entonces galletas
2. SI pan y galletas entonces chocolate
Caso de estudio: cesta de • A diferencia de las reglas de clasificación, las
compras reglas de asociación pueden incluir, en el lado
derecho de la expresión, uno o más atributos.
• Generalizando, una regla de asociación presenta
la forma siguiente:
• SI A entonces B
• donde a (también llamado predecesor) y B
(también llamado sucesor o consecuente) son
dos conjuntos disjuntos de atributos, es decir,
que no tienen ningún elemento en común.
• La calidad de las reglas de asociación suele ser
medida mediante dos parámetros, para los cuales se
establecen requerimientos mínimos:
• Cobertura (Support).- número o porcentaje de instancias
Caso de estudio: cesta de (renglones) que la regla predice correctamente.
compras • Confianza (Confidence).- También llamada precisión, mide
el porcentaje de veces que la regla se cumple cuando es
posible aplicarla.
• Para nuestra regla número 1, tenemos que:
• Cobertura = 3 instancias que se cumplen totalmente
• Precisión = 75%, es decir, es correcta tres veces de las
cuatro en las cuales aplica.
• Para la regla de asociación siguiente:
• SI A entonces B (A  B)
• es posible definir el soporte en la forma:
𝑛(𝐴∧𝐵)
• 𝑠𝑜𝑝𝑜𝑟𝑡𝑒 = = 𝑃(𝐴 ∧ 𝐵)
𝑛

Definición formal: • Así mismo, la confianza puede definirse como:


Soporte y • 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎 =
𝑛(𝐴∧𝐵)
𝑛(𝐴)
= 𝑃(𝐵|𝐴)
confianza
• Donde 𝑛 es el número total de instancias y 𝑛𝑋 el
número de instancias que satisfacen la condición 𝑋.
• De esta forma, el soporte se convierte en la
probabilidad de que tanto las condiciones del
predecesor como las del sucesor sean satisfechas y la
confianza es la precisión de la regla cuando se satisface
la condición predecesora.
• Analicemos otras reglas:
1. SI pan y agua entonces galletas, cobertura = 3/10,
precisión =3/4 = 75%
2. SI pan y galletas entonces agua, cobertura = 3/10,
precisión = 3/3 = 100%
Caso de estudio: cesta 3. SI galletas y agua entonces pan, cobertura = 3/10,
de compras precisión = 3/3 = 100%
4. SI galletas entonces pan y agua, cobertura = 3/10,
precisión = 3/6 = 50%
5. SI pan entonces agua y galletas, cobertura = 3/10,
precisión = 3/6 = 50%
6. SI agua entonces pan y galletas, cobertura = 3/10,
precisión = 3/4 = 75%
• De esta forma, si decidimos utilizar las reglas cuya
confianza sea del 100%, debemos usar solo las reglas
2 y 3.
• A priori es un algoritmo de aprendizaje de reglas de asociación,
basado en conjuntos de reglas con determinada cobertura, en
general:
1. Se construyen conjuntos, conformados por un solo atributo, que superan la
apriori cobertura mínima establecida.
2. Los conjuntos construidos son utilizados, a su vez, para construir el conjunto
de conjuntos conformados por dos ítems.
3. Este proceso continua hasta que se llegue a un tamaño en el cual ya no
existan conjuntos de items con la cobertura requerida.
• Apriori fué propuesto por R. Agrawal and R. Srikant en 1994.
• El nombre del algoritmo se deriva del hecho de que se utiliza
apriori conocimiento previo de las propiedades del conjunto de patrones
frecuentes.
• Para conocer los detalles de operación de apriori se sugiere revisar
el document original disponible en:
http://www.cs.utsa.edu/~bylander/cs6243/agrawal94fast.pdf
Información adicional

• http://elvex.ugr.es/decsai/intelligent/slides/dm/D2%20Association.pdf
• https://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf
• https://www-users.cs.umn.edu/~kumar/dmbook/dmslides/chap6_basic_association_analysis.pdf
Ejercicio: cesta de compras

Vino Refresco Tequila Agua Pan Galletas Chocolate


Cesta 1 1 1 0 0 0 1 0
Cesta 2 0 1 1 0 0 0 0
Cesta 3 0 0 0 1 1 1 0
Cesta 4 1 1 0 1 1 1 1
Cesta 5 0 0 0 0 0 1 0
Cesta 6 1 0 0 0 0 1 1
Cesta 7 0 1 1 1 1 0 0
Cesta 8 0 0 0 1 1 1 1
Cesta 9 1 1 0 0 1 0 1
Cesta 10 0 1 0 0 1 0 0

1 EL CLIENTE HA ADQUIRIDO EL PRODUCTO


0 EL CLIENTE NO HA ADQUIRIDO EL PRODUCTO
Ejercicio: cesta de compras

• Dado que las reglas de asociación trabajan con valores nominales (no numéricos), el
primer paso es modificar los valores en nuestra tabla de ejemplo, quedando de la
siguiente forma:
Vino Refresco Tequila Agua Pan Galletas Chocolate
Cesta 1 Si Si No No No Si No
Cesta 2 No Si Si No No No No
Cesta 3 No No No Si Si Si No
Cesta 4 Si Si No Si Si Si Si
Cesta 5 No No No No No Si No
Cesta 6 Si No No No No Si Si
Cesta 7 No Si Si Si Si No No
Cesta 8 No No No Si Si Si Si
Cesta 9 Si Si No No Si No Si
Cesta 10 No Si No No Si No 0
Ejercicio: cesta de compras

• Para introducir este conjunto de datos en la plataforma weka,


podemos partir de una tabla en Excel con la siguiente forma:
Ejercicio: cesta de compras

• Nuestro archivo debe ser guardado como datos separados por comas
(CSV utf-8) para poder ser cargado en weka:
Ejercicio: cesta de compras

• Una vez guardado en el formato csv utf-8, es posible abrir nuestro


archivo desde el explorador de weka usando el botón open file…:
Ejercicio: cesta de compras

• Una vez abierto nuestro archivo, es posible llevar a cabo


modificaciones en las distintas casillas utilizando el botón edit…:
Ejercicio: cesta de compras

• Mediante la pestaña de edición (viewer) es posible apreciar que


nuestro ejercicio consta de 10 instancias y 7 atributos:
Ejercicio: cesta de compras

• Para generar las reglas de asociación es necesario hacer click en la pestaña associate y el botón
start, nótese que el algoritmo predeterminado es a priori y que el número de reglas a generar
está limitado a 10, este valor puede ser modificado haciendo click justo sobre dicho valor:
Ejercicio: cesta de compras

• Así mismo, es posible configurar


parámetros importantes tales como:
• UpperBoundMinSupport .- el límite superior de
cobertura requerido para aceptar un conjunto
de ítems.
• LowerBoundMinSupport .- Si no se encuentran
conjuntos de ítems suficientes para generar las
reglas requeridas se va disminuyendo el límite
hasta llegar al límite inferior.
• minMetric.- Especifica la confianza mínima
(dependiendo del criterio seleccionado para
ordenar las reglas).
• numRules.- indica el número de reglas a ser
presentadas.
• etricType.- Establece el criterio para ordenar las
reglas presentadas.
Ejercicio: cesta de compras

• Las diez reglas presentadas están clasificadas de acuerdo a la medida


de confianza conf:(1) establecida en los parámetros de configuración
del algoritmo (apriori).
• para cada regla se indica, de izquierda a derecha, la cobertura del
predecesor, de la regla completa y la confianza de la regla.
Ejercicio: cesta de compras

• De esta forma, las reglas generadas nos llevan a pensar que, si alguien compra galletas,
de acuerdo a nuestros registros en la base de datos, no comprará tequila (regla 1) y que
si alguien compra agua, también comprará pan (regla 8).

• UN DETALLE IMPORTANTE CON ESTE CASO DE ESTUDIO ES QUE LA CANTIDAD DE REGISTROS (INSTANCIAS) ES MUY
PEQUEÑA Y QUE LOS ATRIBUTOS SON POCO ESPECÍFICOS, YA QUE NO SE INDICA EL TIPO DE GALLETAS (DULCES O
SALADAS) NI EL TIPO DE AGUA (SIMPLE, AGUA QUINA, AGUA MINERAL).
• LA SIMPLICIDAD DEL CASO, ENCAMINADA A LA COMPRENSIÓN DEL MÉTODO, NOS LLEVA A CONCLUSIONES GENERALES,
LAS CUALES PUEDEN SER MÁS ÚTILES CUANDO SE UTILIZAN MUCHOS MÁS REGISTROS Y SE ES MÁS ESPECÍFICO EN LOS
DETALLES DE LOS PRODUCTOS O, GENERALMENTE HABLANDO, EN LOS ATRIBUTOS DE CADA INSTANCIA.
Ejercicio: cesta de compras

• Desde luego, si nos interesa que la regla generada sea altamente representativa en nuestra base
de datos, debemos buscar las reglas con más alto soporte, para esto es posible modificar el
parámetro LowerBoundMinSupport =0.6, para el cual tenemos el siguiente resultado:

SOLO OBTENEMOS UNA REGLA QUE


SATISFACE LOS CRITERIOS DE
CONFIANZA = 1 Y SOPORTE MÍNIMO
(REPRESENTATIVIDAD) = 6/10 = 0.6
Ejercicio: cesta de compras

• De los hechos observados podemos concluir que la verdadera utilidad de las reglas de
asociación estriba en la interpretación que hagamos de las reglas presentadas por la
herramienta, lo cual implica hacer varios ejercicios modificando los parámetros de
soporte mínimo y confianza, analicemos dos casos más:

• LA REGLA 45 TIENE UNA CONFIANZA DEL 100% Y UN SOPORTE DE 3/10, LO CUAL NO ES TAN REPRESENTATIVO YA QUE, SIN DUDA,
NOS GUSTARÍA ENCONTRAR REGLAS QUE TUVIERAN UN SOPORTE DE 10/10 (PARA ESTE EJERCICIO), ES DECIR, QUE SE
CUMPLIERAN EN EL 100% DE LOS CASOS REGISTRADOS. EN CONCLUSIÓN PARA ESTA REGLA, SI ALGUIEN COMPRA PAN Y
TAMBIÉN COMPRA GALLETAS, DE ACUERDO A LOS REGISTROS DE NUESTRA PEQUEÑA BASE DE DATOS, TAMBIÉN COMPRARÁ
AGUA.
• LO IDEAL, DE ACUERDO A LA REGLA GENERADA, SERÍA COLOCAR ESTOS TRES PRODUCTOS LO MÁS CERCANOS ENTRE SÍ Y LO MÁS
VISIBLE POSIBLE PARA EL CONSUMIDOR.
• ¿QUÉ NOS INDICA LA REGLA 46?

También podría gustarte