Análisis Jerárquico de Agrupaciones

Universidad Nacional de Costa Rica
Adan Rivera Sanchez
Análisis Jerárquico De Agrupaciones
Contenido
Análisis Jerárquico De Agrupaciones .................................................................................. 1
cómo funciona un algoritmo de clustering jerárquico ..................................................... 2
• Tipo aglomerativo: ............................................................................................................. 2
• Tipo divisible: ...................................................................................................................... 2
Representación: El dendrograma................................................................................................... 2
¿Cómo decidir qué grupos están cerca?............................................................................. 4
¿Qué es el enlace único y el enlace completo? ................................................................. 4
¿Cuál es la complejidad temporal del algoritmo? ............................................................. 5
Visualización ................................................................................................................................. 5
Evaluación.................................................................................................................................... 6
El clustering jerárquico, es un método de data mining para agrupar datos (en minería de
datos a estos grupos de datos se les llama clústers).
El algoritmo de clúster jerárquico agrupa los datos basándose en la distancia entre cada
uno y buscando que los datos que están dentro de un clúster sean los más similares entre
sí. (Algoritmo de agrupamiento jerárquico, s.f.)
Hay un par de ideas generales que ocurren con bastante frecuencia con respecto a la
agrupación:
• los clústeres deben estar presentes de forma natural en los datos.
• el clustering o agrupamiento debe descubrir patrones ocultos en los datos.
• los puntos de datos dentro del clúster deben ser similares.
• los puntos de datos en dos grupos diferentes no deben ser similares.

Adan Rivera Sanchez
Cómo funciona un algoritmo de clustering jerárquico
Se pueden definir dos tipos de clustering jerárquico dependiendo de la dirección en la que
el algoritmo ejecute el agrupamiento (clustering jerarquico, s.f.):
• Tipo aglomerativo: empezamos a agrupar desde cada elemento individual.
al inicio cada punto o dato está en un clúster separado. a cada paso, los dos
clústers más cercanos se fusionan. estas fusiones de clústers se siguen
produciendo de forma sucesiva produciendo una jerarquía de resultados de
clustering. al final del proceso solo queda un único clúster que aglutina todos los
elementos.
• Tipo divisible: comenzamos a la inversa, partimos de un único clúster que
aglomera todos los datos y vamos dividiendo en clústers más pequeños.
Representación: El dendrograma
La manera de representar un clustering jerárquico es con un dendrograma.
Adan Rivera Sanchez
Las líneas verticales del dendrograma ilustran las fusiones (o divisiones) realizadas en
cada etapa del clustering. Podemos ver la distancia, los distintos niveles de
asociaciones entre los datos individuales y también las asociaciones entre clústers.
(algoritmo-agrupamiento-jerarquico-teoria, s.f.)
Pasos para el algoritmo de agrupamiento jerárquico
• Sigamos los siguientes pasos para el algoritmo de agrupamiento jerárquico que se
dan a continuación:
• 1. Algoritmo
• Algoritmo de agrupamiento jerárquico aglomerativo
• Comience a inicializar c, c1 = n, Di = (xi), i = 1, ..., n '
• Do c1 = c1 - 1
• Encuentra los grupos más cercanos, por ejemplo, Di y Dj

Adan Rivera Sanchez
• Fusionar Di y Dj
• Hasta que c = c1
• Regresar c agrupaciones
• Final
Este algoritmo comienza con n grupos inicialmente donde cada punto de datos es un
grupo. Con cada iteración, el número de grupos se reduce en 1 a medida que se
fusionan los 2 grupos más cercanos. Este proceso continúa hasta que el número de
clústeres se reduce al valor predefinido c.
¿Cómo decidir qué grupos están cerca?

• Eso se define usando varias métricas de distancia que son las siguientes:
• La distancia mínima entre los grupos dmin (Di, Dj). Útil para solteros.
• La distancia máxima entre los grupos dmax (Di, Dj). Útil para completar.
• La distancia media entre los grupos davg (Di, Dj). (Clustering Analysis, s.f.)
¿Qué es el enlace único y el enlace completo?

• Cuando se usa dmin (di, dj) para encontrar la distancia entre dos grupos, y el
algoritmo termina si la distancia entre los grupos más cercanos excede un umbral,
entonces el algoritmo se llama algoritmo de enlace único.
• Cuando se usa dmax (Di, Dj) para encontrar la distancia entre dos grupos, y el
algoritmo termina si la distancia entre los grupos más cercanos excede un umbral,
entonces el algoritmo se llama algoritmo de enlace completo.
• Consideremos cada punto de datos como un nodo de un gráfico. Hay una ventaja
entre dos puntos de datos si pertenecen al mismo clúster. Cuando se fusionan dos
grupos más cercanos, se agrega un borde. Se llama un enlace único porque existe
una ruta única de un nodo a otro.
• El algoritmo de enlace completo combina dos grupos al minimizar la distancia
entre los dos puntos más lejanos.

Adan Rivera Sanchez
• Un algoritmo de enlace único genera un árbol de expansión. Sin embargo, este
algoritmo es susceptible al ruido. Un algoritmo de enlace completo genera un
gráfico completo.
¿Cuál es la complejidad temporal del algoritmo?

Supongamos que tenemos n patrones en el espacio d-dimensional, y usamos dmin
(Di, Dj) para formar c grupos. Necesitamos calcular n (n - 1) distancias entre puntos, cada
una de las cuales es un cálculo de O (d 2 ), y colocar los resultados en una tabla de
distancias entre puntos. La complejidad del espacio es O (n 2 ). Encontrar el par de
distancia mínima (para la primera fusión) requiere que recorramos la lista completa,
manteniendo el índice de la distancia más pequeña.
Así, para el primer paso aglomerativo, la complejidad es O (n (n - 1) (d 2 + 1)) = O
(n 2 d 2 ). Para otro paso de aglomeración arbitrario (es decir, de c1 a c1 - 1),
simplemente pasamos por las distancias "no utilizadas" n (n - 1) - c1 en la lista y
encontramos la más pequeña para la cual x y x 'se encuentran en diferentes grupos. Esto
es, nuevamente, O (n (n − 1) −c1). La complejidad del tiempo total es, por lo tanto, O
(cn 2 d 2 ), y en condiciones típicas n >> c.
Visualización
Una vez que los datos se dividen en grupos, es una buena práctica visualizar los grupos
para tener una idea de cómo se ve la agrupación. Pero visualizar estos datos de alta
dimensión es difícil. Por lo tanto, utilizamos el análisis de componentes principales (PCA)
para la visualización. Después de PCA, obtenemos los puntos de datos en el espacio de
baja dimensión (generalmente 2D o 3D) que podemos trazar para ver la agrupación.
(Gennclus: New models for general nonhierarchical clustering analysis, s.f.)
Nota: La dimensión alta significa una gran cantidad de características y no una cantidad
de puntos de datos.
Adan Rivera Sanchez
Evaluación
Uno de los métodos para la evaluación de grupos es que la distancia de los puntos
entre los grupos (distancia entre grupos) debe ser mucho mayor que la distancia de los
puntos dentro del grupo (distancia dentro del grupo). (clustering jerarquico, s.f.)
Bibliografía
(s.f.). Obtenido de algoritmo-agrupamiento-jerarquico-teoria: https://aprendeia.com/algoritmo-
agrupamiento-jerarquico-teoria/
Algoritmo de agrupamiento jerárquico. (s.f.). Obtenido de Algoritmo de agrupamiento jerárquico:

https://es.photo-555.com/6259733-hierarchical-clustering-algorithm
Clustering Analysis. (s.f.). Obtenido de Clustering Analysis:

https://link.springer.com/chapter/10.1007/978-3-642-96303-2_3
clustering jerarquico. (s.f.). Obtenido de clustering jerarquico:

https://estrategiastrading.com/clustering-jerarquico/
Gennclus: New models for general nonhierarchical clustering analysis. (s.f.). Obtenido de Gennclus:
New models for general nonhierarchical clustering analysis:
https://link.springer.com/article/10.1007%2FBF02293709
https://link.springer.com/chapter/10.1007/978-3-642-96303-2_3. (s.f.). Obtenido de

https://link.springer.com/chapter/10.1007/978-3-642-96303-2_3: Clustering Analysis

Análisis Jerárquico de Agrupaciones

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis Jerárquico de Agrupaciones

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional de Costa Rica

Adan Rivera Sanchez

Análisis Jerárquico De Agrupaciones

datos a estos grupos de datos se les llama clústers).

sí. (Algoritmo de agrupamiento jerárquico, s.f.)

• los clústeres deben estar presentes de forma natural en los datos.

• el clustering o agrupamiento debe descubrir patrones ocultos en los datos.

• los puntos de datos dentro del clúster deben ser similares.

• los puntos de datos en dos grupos diferentes no deben ser similares.

Se pueden definir dos tipos de clustering jerárquico dependiendo de la dirección en la que

el algoritmo ejecute el agrupamiento (clustering jerarquico, s.f.):

• Tipo aglomerativo: empezamos a agrupar desde cada elemento individual.

clústers más cercanos se fusionan. estas fusiones de clústers se siguen

produciendo de forma sucesiva produciendo una jerarquía de resultados de

• Tipo divisible: comenzamos a la inversa, partimos de un único clúster que

aglomera todos los datos y vamos dividiendo en clústers más pequeños.

Pasos para el algoritmo de agrupamiento jerárquico

• Sigamos los siguientes pasos para el algoritmo de agrupamiento jerárquico que se

• Algoritmo de agrupamiento jerárquico aglomerativo

• Comience a inicializar c, c1 = n, Di = (xi), i = 1, ..., n '

• Encuentra los grupos más cercanos, por ejemplo, Di y Dj

grupo. Con cada iteración, el número de grupos se reduce en 1 a medida que se

clústeres se reduce al valor predefinido c.

¿Cómo decidir qué grupos están cerca?

¿Qué es el enlace único y el enlace completo?

entonces el algoritmo se llama algoritmo de enlace único.

entonces el algoritmo se llama algoritmo de enlace completo.

una ruta única de un nodo a otro.

• El algoritmo de enlace completo combina dos grupos al minimizar la distancia

entre los dos puntos más lejanos.

• Un algoritmo de enlace único genera un árbol de expansión. Sin embargo, este

algoritmo es susceptible al ruido. Un algoritmo de enlace completo genera un

¿Cuál es la complejidad temporal del algoritmo?

una de las cuales es un cálculo de O (d 2 ), y colocar los resultados en una tabla de

distancias entre puntos. La complejidad del espacio es O (n 2 ). Encontrar el par de

manteniendo el índice de la distancia más pequeña.

Así, para el primer paso aglomerativo, la complejidad es O (n (n - 1) (d 2 + 1)) = O

(n 2 d 2 ). Para otro paso de aglomeración arbitrario (es decir, de c1 a c1 - 1),

simplemente pasamos por las distancias "no utilizadas" n (n - 1) - c1 en la lista y

(cn 2 d 2 ), y en condiciones típicas n >> c.

dimensión es difícil. Por lo tanto, utilizamos el análisis de componentes principales (PCA)

para la visualización. Después de PCA, obtenemos los puntos de datos en el espacio de

(Gennclus: New models for general nonhierarchical clustering analysis, s.f.)

Algoritmo de agrupamiento jerárquico. (s.f.). Obtenido de Algoritmo de agrupamiento jerárquico:

Clustering Analysis. (s.f.). Obtenido de Clustering Analysis:

clustering jerarquico. (s.f.). Obtenido de clustering jerarquico:

https://link.springer.com/chapter/10.1007/978-3-642-96303-2_3. (s.f.). Obtenido de

También podría gustarte