Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DeepL 0910
DeepL 0910
• Modelo CRISP
• Caso de Estudio – Árbol de Decisión
• Caso de Estudio – Random Forest
• Caso de Estudio – Market Basket Analysis
Aprendizaje No Supervisado
Maximiza la
Minimiza la distancia entre-
distancia intra- clusters.
cluster.
• Se clasifican en:
• Particional
• Se dividen los datos en sub grupos que
no se traslapan haciendo que cada
elemento pertenezca a un único sub
grupo.
• Jerárquico
• Cuando aparece un grupo de
elementos organizados de manera
jerárquica.
p1
p3 p4
p2
p1 p2 p3 p4
Conglomerado Jerárquico Tradicional Dendograma Tradicional
p1
p3 p4
p2
p1 p2 p3 p4
Clustering Jerárquico No Tradicional Dendograma No Tradicional
Diagrama de Alcanzabilidad
• Conglomerado Jerárquico
Distancia IntraCluster
Monto Consumo
Distancia IntraCluster
Hartigan-W
Monto Consumo
Lloyd
Distancia IntraCluster
McQueen
Monto Consumo
Forgy
Distancia IntraCluster
Monto Consumo
la suma de las distancia de los
centroides
• Método Ward
• Explorar la Red
• Determinar el Dendograma
Deep Learning y sus Aplicaciones en los Negocios
17
Ejemplo Clustering - Orange
Análisis de Canasta de
Mercado
Los hábitos de compra de los clientes pueden ser representados a través de asociaciones o
correlaciones entre los diferentes productos que compran en sus “canastas”.
Colocar juntas la cerveza y las patatas fritas si se ha determinado que se compran simultáneamente, maximiza la venta
de ambos productos.
En el sector del retail habitualmente se hacen ofertas de paquetes de compra de 2 o más productos. La búsqueda de
asociaciones permite la selección de estos productos para maximizar la atención del cliente y, finalmente, las ventas de
los paquetes.
En las tiendas no caben todos los productos de los que dispone el supermercado. El análisis de los productos que se
compran simultáneamente en la tienda más grande de la cadena ayuda en la selección del surtido de las tiendas.
Ofrecer un producto a todos los clientes que pasan por caja es una buena estrategia para vender más. Pero, ¿qué
pasaría si pudiéramos hacer una oferta personalizada en función del ticket de compra del cliente, en lugar de ofrecer
siempre el mismo producto, sea cual sea el cliente? Si sabemos que el arroz está asociado a la compra simultánea de
tomate frito, ofrezcamos el tomate a ese cliente que ha comprado arroz, en lugar de un refresco de cola.
El denominador son las 3 transacciones que existen en total, y el numerador es la cantidad de veces que
ocurre los productos (arroz->Cerveza) en total 2veces .
(𝑨𝒓𝒓𝒐𝒛 ∪𝑪𝒆𝒓𝒗𝒆𝒛𝒂)
Support (arroz→cerveza) = P (arroz U cerveza) Support = = 2/3 = 66.7%
#𝑻𝒓𝒂𝒏𝒔𝒂𝒄𝒄𝒊𝒐𝒏𝒆𝒔
Este indicador señala que tan frecuente es la relación entre productos con respecto al universo. Pero no
indica si existe vínculo entre ambos productos.
Deep Learning y sus Aplicaciones en los Negocios
24
Análisis de Canasta de Compras
Confiabilidad (confidence):Supone una relación que se desea medir. Indica el porcentaje de transacciones que llevan el
antecedente y el consecuente juntos, con respecto al total de transacciones que llevan el antecedente.
𝑺(𝑪𝒆𝒓𝒗𝒆𝒛𝒂 ∪ 𝑷𝒖𝒓é) 𝟏
Confiabilidad = (Cerveza→ Puré) = P(Cerveza/Pure) 𝑪=
𝑺(𝑪𝒆𝒓𝒗𝒆𝒛𝒂)
= = 𝟓𝟎%
𝟐
En este caso el denominador indica la cantidad de veces en las cuales se ha presentado el producto antecedente (en mi ejemplo es
Cerveza), ocurriendo Cerveza, en nuestro caso en 2 transacciones.
En el numerador, se coloca, en cuantas de esas veces, también se compró el producto consecuente de la relación (en este caso en cuantas
TAMBIEN hubo Puré (además de Cerveza) en esas veces). Esto saldría 1 sola vez.
Entonces la confiabilidad es 1/2 para Puré=>Cerveza, que se leería confianza de que se compre el producto Puré, habiéndose comprado
también el producto Cerveza.
Deep Learning y sus Aplicaciones en los Negocios
25
Ejercicio: Soporte y Confianza
T1 T2 T3
{Arroz, Cerveza, pure} {Arroz, Helado, Pan} {Arroz, Bebida, Cerveza}
En el numerador va el # de veces que (Cerveza, Puré) se repite y observamos 1 vez, y dividido en el # de transacciones.
En el denominador va el # de veces que (Cerveza) aparece y observamos 2 veces y dividido en el # de transacciones.
En el denominador va el # de veces que (Puré) aparece y observamos 1 vez, y divido en el # de Transacciones.
Se realiza los cálculos y se obtiene el puntaje de Ganancia = 1.5