Está en la página 1de 5

2/23/2024

Association rules:
Association rules are a fundamental concept in data mining to discover interesting relationships
between variables in large datasets. Specifically, association rule mining seeks to identify
associations or patterns that indicate a strong correlation between items in a dataset.

These rules are typically of the form "if X, then Y," where X and Y are sets of items. The rules
are evaluated based on two metrics: support and confidence. Support measures how frequently a
rule occurs in the dataset, while confidence measures how often the rule is true.

For example, in a retail dataset, an association rule might indicate that customers who buy bread
are also likely to buy butter. This information can be valuable for marketing strategies, such as
placing butter next to bread in the store to increase sales.

Possible applications:
1-. Discover new patterns in the answers.
2-. Check hypotheses about people`s preferences.
3-. Find relationships between groups of responses.
Basic Definitions:
Itemset: Colección de uno o más ítems {Leche, Pañales, cerveza}
Soporte: Frecuencia relativa en la que un itemset aparece dentro de los datos.
Itemset frecuente: Un itemset el cual aparece más veces que un determinado umbral.
Regla de Asociación: Expresión de la forma X  Y, donde X e Y son Itemsets:
- {Leche, baby diapers(pañales)}  {Cerveza}
– Antecedente  Consecuente
2/24/2024

Soporte, Confianza y Lift

Objetivo principal: Entender indicadores de rendimiento en las Reglas de Asociación.


Soporte: Frecuencia Relativa del Itemset.
Confianza: Probabilidad empírica de que ocurra el consecuente dado que ocurrió el antecedente.
Lift: Refleja el aumento de la probabilidad de que ocurra el consecuente cuando nos enteramos
de que ocurre el antecedente.

Soporte: Frecuencia relativa de una regla sobre el total


de las transacciones:

El soporte del Itemset (Leche, Pañales, cerveza) es de


0.4 o 40%. Es la cantidad de veces que aparece el
Itemset entre el total. Podemos decir que el 40% de las
transacciones muestran que leche, pañales y cerveza se
compraron juntos.

Confianza: Mide que tan confiable es la suposición


hecha por la regla. (Leche, Pañales) (Cerveza)
En el numerador podemos las veces que aparece el
Itemset y en el denominador las veces que aparece el
Antecedente. Podemos decir que el 67% de los
consumidores que compraron leche y pañales, también
compraron cerveza.
Existen casos que valores altos de
“confianza” se debe a que el producto
“consecuente” tiene un soporte alto
independiente del producto del lado
izquierdo. Por ejemplo, para la regla.
Leche -> Cerveza tiene una confianza de 0.7.
Esto significa que la probabilidad empírica
que el cliente compre cerveza después de
comprar leche es de un 70%. Pero si nos
damos cuenta que comprar leche no significa
comprar cerveza porque la cerveza por sí sola
ya tenía una venta del 70%.

En las reglas de asociación, el LIFT se calcula como la relación entre la confianza de la regla y el
soporte del consecuente. La fórmula es:

- La confianza de la regla es la probabilidad de que el


consecuente ocurra dado que el antecedente ha ocurrido.
- El soporte del consecuente es la probabilidad de que el consecuente ocurra en el conjunto de
datos.
Example:
Supongamos la regla "Leche y pañales implican compra de cerveza". Se observa lo siguiente en
un conjunto de datos:
- De 100 clientes que compran leche y pañales, 20 también compran cerveza.
- El 30% de todos los clientes compran leche.
- El 25% de todos los clientes compran pañales.
- El 10% de todos los clientes compran cerveza.
Calculamos:
- Confianza de la regla: 20% (de los que compran leche y pañales, el 20% también compra
cerveza).
- Soporte del consecuente (compra de cerveza): 10%.
Por lo tanto, el LIFT es:

Un LIFT de 2 indica que la probabilidad de comprar cerveza después de comprar leche y pañales
es dos veces mayor que la probabilidad de comprar cerveza en general.

2/26/2024
Are there several algorithms to find association rules?

Yes, there are several algorithms to find association rules in data sets. The most common algorithms are Frequent Pattern Grown,
Eclat, CARMA, etc.

Algorithm A-Priori: Part 1:

También podría gustarte