Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Contenido
Análisis Jerárquico De Agrupaciones .................................................................................. 1
cómo funciona un algoritmo de clustering jerárquico ..................................................... 2
• Tipo aglomerativo: ............................................................................................................. 2
• Tipo divisible: ...................................................................................................................... 2
Representación: El dendrograma................................................................................................... 2
¿Cómo decidir qué grupos están cerca?............................................................................. 4
¿Qué es el enlace único y el enlace completo? ................................................................. 4
¿Cuál es la complejidad temporal del algoritmo? ............................................................. 5
Visualización ................................................................................................................................. 5
Evaluación.................................................................................................................................... 6
El clustering jerárquico, es un método de data mining para agrupar datos (en minería de
El algoritmo de clúster jerárquico agrupa los datos basándose en la distancia entre cada
uno y buscando que los datos que están dentro de un clúster sean los más similares entre
Hay un par de ideas generales que ocurren con bastante frecuencia con respecto a la
agrupación:
al inicio cada punto o dato está en un clúster separado. a cada paso, los dos
clustering. al final del proceso solo queda un único clúster que aglutina todos los
elementos.
Representación: El dendrograma
La manera de representar un clustering jerárquico es con un dendrograma.
Universidad Nacional de Costa Rica
Adan Rivera Sanchez
Las líneas verticales del dendrograma ilustran las fusiones (o divisiones) realizadas en
cada etapa del clustering. Podemos ver la distancia, los distintos niveles de
asociaciones entre los datos individuales y también las asociaciones entre clústers.
(algoritmo-agrupamiento-jerarquico-teoria, s.f.)
dan a continuación:
• 1. Algoritmo
• Do c1 = c1 - 1
• Fusionar Di y Dj
• Hasta que c = c1
• Regresar c agrupaciones
• Final
Este algoritmo comienza con n grupos inicialmente donde cada punto de datos es un
fusionan los 2 grupos más cercanos. Este proceso continúa hasta que el número de
• La distancia mínima entre los grupos dmin (Di, Dj). Útil para solteros.
• La distancia máxima entre los grupos dmax (Di, Dj). Útil para completar.
• La distancia media entre los grupos davg (Di, Dj). (Clustering Analysis, s.f.)
algoritmo termina si la distancia entre los grupos más cercanos excede un umbral,
• Cuando se usa dmax (Di, Dj) para encontrar la distancia entre dos grupos, y el
algoritmo termina si la distancia entre los grupos más cercanos excede un umbral,
• Consideremos cada punto de datos como un nodo de un gráfico. Hay una ventaja
entre dos puntos de datos si pertenecen al mismo clúster. Cuando se fusionan dos
grupos más cercanos, se agrega un borde. Se llama un enlace único porque existe
gráfico completo.
(Di, Dj) para formar c grupos. Necesitamos calcular n (n - 1) distancias entre puntos, cada
distancia mínima (para la primera fusión) requiere que recorramos la lista completa,
encontramos la más pequeña para la cual x y x 'se encuentran en diferentes grupos. Esto
es, nuevamente, O (n (n − 1) −c1). La complejidad del tiempo total es, por lo tanto, O
Visualización
Una vez que los datos se dividen en grupos, es una buena práctica visualizar los grupos
para tener una idea de cómo se ve la agrupación. Pero visualizar estos datos de alta
baja dimensión (generalmente 2D o 3D) que podemos trazar para ver la agrupación.
Nota: La dimensión alta significa una gran cantidad de características y no una cantidad
de puntos de datos.
Universidad Nacional de Costa Rica
Adan Rivera Sanchez
Evaluación
Uno de los métodos para la evaluación de grupos es que la distancia de los puntos
entre los grupos (distancia entre grupos) debe ser mucho mayor que la distancia de los
puntos dentro del grupo (distancia dentro del grupo). (clustering jerarquico, s.f.)
Bibliografía
(s.f.). Obtenido de algoritmo-agrupamiento-jerarquico-teoria: https://aprendeia.com/algoritmo-
agrupamiento-jerarquico-teoria/
Gennclus: New models for general nonhierarchical clustering analysis. (s.f.). Obtenido de Gennclus:
New models for general nonhierarchical clustering analysis:
https://link.springer.com/article/10.1007%2FBF02293709