Está en la página 1de 36

Data Mining

Reglas de Asociación
¿Qué haremos hoy?
Objetivos
Definir Reglas de Asociación

Discutir Ejemplos

Práctica en Rapid Miner


Reglas de
Asociación
Definamos el concepto
Reglas de Asociación
Es una metodología que busca encontrar conexiones
entre atributos de un data set.

Responde a la pregunta:

¿Qué va con qué?


La idea central es encontrar conjuntos de items que
tienden a comprarse juntos y establecer relaciones
entre distintos items Regla de Lógica Formal
Si A => B
Se lee: Si A entonces B
A: Es una premisa
B: Es una conclusión

Ejemplo: Si el cliente compra A entonces también


compra B.
Ejemplo
Supermercado
Ejemplo
Supermercado
Parece obvio
pero...
Podemos encontrar relaciones no sospechadas
Caso de Ejemplo
Walmart

Pañales Cervezas
¿Qué más se
les ocurre?
Mercadólogos y vendedores utilizan este tipo
de análisis, en muchos sectores, para encontrar
productos que se compras juntos de forma
frecuente.

Segmentar clientes con base en los patrones de compra

Ubicación de productos en estantes

Venta cruzadas (Cross Selling)


Creación de combos

Layout en tiendas

Diseño de Promociones

Sistemas de Recomendación

Upselling
Amazon
Alguien sabe
algún ejemplo
Netflix
¿Cómo funciona?
Necesitamos una base de datos transaccional
Un ID de transacción
Una lista de items correspondientes al ID de
transacción
ID Item
Continuemos con el ejemplo del Supermercado.
1 Tomate Tenemos dos Transacciones con diferentes productos

Vamos a necesitar una representación Horizontal de la lista


1 Lechuga

1 Mostaza

2 Agua

2 Hielo

2 Coca Cola
Así se necesita el data set:

ID Tomate Lechuga Mostaza Agua Hielo Coca Cola

1 1 1 1 0 0 0

2 0 0 0 1 1 1
Factores principales:
Porcentaje de Confianza

Soporte

Lift
Resumen de Fórmulas:
Una regla de asociación entre 2 productos A y B implica que
la presencia del producto A implica la presencia del producto
B ( A => B):

Soporte = Frecuencia (AB) / Total

Confianza = Frecuencia (AB) / Frecuencia (A)

Lift = Frecuencia (AB) /(Fecuencia(B) * Frecuencia (A))


Ejemplo
Volviendo al ejemplo del Supermercado, imaginemos que se analizan 10 transacciones de compra. Y
se encuentra que 2 productos están asociados uno al otro:
Leche
Galletas

Galletas Leche Galletas y Leche

En 4 compras hay En 3 compras hay


En 7 compras hay
galletas leche y galletas
leche
Soporte
Es el número de veces que la regla se cumple dividido entre el
número de observaciones del data set (Frecuencia). También puede
definirse para un producto de forma individual.

Siguiendo con el ejemplo anterior, sabemos que la regla (Leche y


galletas) se cumplió 3 veces de las 10 transacciones que se
analizaron.

Soporte es 30%
Porcentaje de Confianza:
Mide que tanta confianza se le da a un atributo que se
marca como Verdadero y el atributo asociado también

Galletas Leche

Galletas =>Leche

Porcentaje de Confianza es 75%


En 4 compras hay 3 de esas 4 compras
galletas hay leche

3/4 = 0.75
Porcentaje de Confianza:
Si hay en total 7 compras de leche:

Leche Galletas

3 de esas 7 compras
En 7 compras hay
hay galletas
leche

3/7 = 0.4285

Leche =>Galletas

Porcentaje de Confianza es 43%


Lift
Si el Lift es 1 o está muy cerca de 1 indica que la relación es
producto del azar. Independientes

Si el Lift es mayor que 1 indica una relación realmente fuerte.


Positivamente correlacionadas

Si el Lift es menor que 1 indica una relación es débil.


Negativamente correlacionadas
Comprobemos a ver si se entendió...

¿Cuál es la confianza de Mantequilla => Pan?


¿Cuál es la confianza de Pan => Leche?
ID Productos Comprados

1 Pan, Mermelada, Mantequilla

2 Pan, Mantequilla

3 Pan, Leche, Mantequilla

4 Cerveza, Pan

5 Cerveza, Leche, Pan


Tipos de reglas

Reglas útiles que pueden resultar en acciones para beneficio


de la empresa

Reglas triviales que ya conocíamos con anterioridad

Reglas inexplicables que no podemos tomar acciones con ellas

Barry & Linoff


La reglas de asociación puede aplicarse para varios propósitos:

Compra de acciones

Detección de enfermedades

Detección de fraude
Caso Ejemplo
Roger es el líder del patronato de su comunidad. La ciudad donde
vive tiene recursos limitados. Hay más necesidades que recursos en
realidad. Él cree que los ciudadanos están activos en diferentes
tipos de organizaciones y cree que puede organizar voluntarios
para trabajar juntos para la mejora del pueblo.

Él sabe que hay iglesias, clubes sociales y otros tipo de grupos. Lo


que él no conoce son las conexiones entre dichos grupos. Quizás
así puede encontrar colaboraciones entre dos o más grupos para
trabajar juntos en proyectos de mejora.

Antes de pedir ayuda a las diferentes organizaciones para trabajar


juntos, él necesita encontrar la existencia de asociaciones entre
diferentes grupos del area.
Tiempo Transcurrido (Elapsed_Time): Tiempo para llenar la
encuesta
Tiempo en la Comunidad (Time_in_Community): Mide la
cantidad de años de vivir en el lugar, pero se categoriza en:
Short, Medium y Long
Género (Gender): F/M
¿Qué data usó Trabajo (Working): Indica si la persona trabaja o no
(Yes/No)

Roger? Edad (Age)

Los siguientes atributos indican si la persona pertenece o no a


los siguientes tipos de organizaciones. Almacena Yes/No
Resultados de la encuesta
Familia (Family)
Su Data Set se compone de 3,483 registros
Pasatiempos (Hobbies)
con 12 atributos
Clubes Sociales (Social_Club)
Político (Political)
Profesional (Professional)
Religioso (Religious)
De Apoyo (Support_Group)
Usaremos Rapid
Miner
¿Aprendieron
algo hoy?
Conclusiones Reglas de Asociación

Indica una relación entre 2 productos, se compran juntos. Por eso se dice que es una
regla

Posibles usos

Crear promociones, cross-selling, upselling, sistemas de recomendación, etc.


Todo lo anterior para generar más ganancias/ingresos

Métricas vitales

Soporte: Indica Frecuencia


Confianza: Indica Fortaleza
Lift: Si es azar o no

También podría gustarte