Está en la página 1de 6

Universidad Nacional de Costa Rica

Adan Rivera Sanchez

Análisis Jerárquico De Agrupaciones

Contenido
Análisis Jerárquico De Agrupaciones .................................................................................. 1
cómo funciona un algoritmo de clustering jerárquico ..................................................... 2
• Tipo aglomerativo: ............................................................................................................. 2
• Tipo divisible: ...................................................................................................................... 2
Representación: El dendrograma................................................................................................... 2
¿Cómo decidir qué grupos están cerca?............................................................................. 4
¿Qué es el enlace único y el enlace completo? ................................................................. 4
¿Cuál es la complejidad temporal del algoritmo? ............................................................. 5
Visualización ................................................................................................................................. 5
Evaluación.................................................................................................................................... 6

El clustering jerárquico, es un método de data mining para agrupar datos (en minería de

datos a estos grupos de datos se les llama clústers).

El algoritmo de clúster jerárquico agrupa los datos basándose en la distancia entre cada

uno y buscando que los datos que están dentro de un clúster sean los más similares entre

sí. (Algoritmo de agrupamiento jerárquico, s.f.)

Hay un par de ideas generales que ocurren con bastante frecuencia con respecto a la

agrupación:

• los clústeres deben estar presentes de forma natural en los datos.

• el clustering o agrupamiento debe descubrir patrones ocultos en los datos.

• los puntos de datos dentro del clúster deben ser similares.

• los puntos de datos en dos grupos diferentes no deben ser similares.


Universidad Nacional de Costa Rica
Adan Rivera Sanchez
Cómo funciona un algoritmo de clustering jerárquico

Se pueden definir dos tipos de clustering jerárquico dependiendo de la dirección en la que

el algoritmo ejecute el agrupamiento (clustering jerarquico, s.f.):

• Tipo aglomerativo: empezamos a agrupar desde cada elemento individual.

al inicio cada punto o dato está en un clúster separado. a cada paso, los dos

clústers más cercanos se fusionan. estas fusiones de clústers se siguen

produciendo de forma sucesiva produciendo una jerarquía de resultados de

clustering. al final del proceso solo queda un único clúster que aglutina todos los

elementos.

• Tipo divisible: comenzamos a la inversa, partimos de un único clúster que

aglomera todos los datos y vamos dividiendo en clústers más pequeños.

Representación: El dendrograma
La manera de representar un clustering jerárquico es con un dendrograma.
Universidad Nacional de Costa Rica
Adan Rivera Sanchez

Las líneas verticales del dendrograma ilustran las fusiones (o divisiones) realizadas en

cada etapa del clustering. Podemos ver la distancia, los distintos niveles de

asociaciones entre los datos individuales y también las asociaciones entre clústers.

(algoritmo-agrupamiento-jerarquico-teoria, s.f.)

Pasos para el algoritmo de agrupamiento jerárquico

• Sigamos los siguientes pasos para el algoritmo de agrupamiento jerárquico que se

dan a continuación:

• 1. Algoritmo

• Algoritmo de agrupamiento jerárquico aglomerativo

• Comience a inicializar c, c1 = n, Di = (xi), i = 1, ..., n '

• Do c1 = c1 - 1

• Encuentra los grupos más cercanos, por ejemplo, Di y Dj


Universidad Nacional de Costa Rica
Adan Rivera Sanchez

• Fusionar Di y Dj

• Hasta que c = c1

• Regresar c agrupaciones

• Final

Este algoritmo comienza con n grupos inicialmente donde cada punto de datos es un

grupo. Con cada iteración, el número de grupos se reduce en 1 a medida que se

fusionan los 2 grupos más cercanos. Este proceso continúa hasta que el número de

clústeres se reduce al valor predefinido c.

¿Cómo decidir qué grupos están cerca?


• Eso se define usando varias métricas de distancia que son las siguientes:

• La distancia mínima entre los grupos dmin (Di, Dj). Útil para solteros.

• La distancia máxima entre los grupos dmax (Di, Dj). Útil para completar.

• La distancia media entre los grupos davg (Di, Dj). (Clustering Analysis, s.f.)

¿Qué es el enlace único y el enlace completo?


• Cuando se usa dmin (di, dj) para encontrar la distancia entre dos grupos, y el

algoritmo termina si la distancia entre los grupos más cercanos excede un umbral,

entonces el algoritmo se llama algoritmo de enlace único.

• Cuando se usa dmax (Di, Dj) para encontrar la distancia entre dos grupos, y el

algoritmo termina si la distancia entre los grupos más cercanos excede un umbral,

entonces el algoritmo se llama algoritmo de enlace completo.

• Consideremos cada punto de datos como un nodo de un gráfico. Hay una ventaja

entre dos puntos de datos si pertenecen al mismo clúster. Cuando se fusionan dos

grupos más cercanos, se agrega un borde. Se llama un enlace único porque existe

una ruta única de un nodo a otro.

• El algoritmo de enlace completo combina dos grupos al minimizar la distancia

entre los dos puntos más lejanos.


Universidad Nacional de Costa Rica
Adan Rivera Sanchez

• Un algoritmo de enlace único genera un árbol de expansión. Sin embargo, este

algoritmo es susceptible al ruido. Un algoritmo de enlace completo genera un

gráfico completo.

¿Cuál es la complejidad temporal del algoritmo?


Supongamos que tenemos n patrones en el espacio d-dimensional, y usamos dmin

(Di, Dj) para formar c grupos. Necesitamos calcular n (n - 1) distancias entre puntos, cada

una de las cuales es un cálculo de O (d 2 ), y colocar los resultados en una tabla de

distancias entre puntos. La complejidad del espacio es O (n 2 ). Encontrar el par de

distancia mínima (para la primera fusión) requiere que recorramos la lista completa,

manteniendo el índice de la distancia más pequeña.

Así, para el primer paso aglomerativo, la complejidad es O (n (n - 1) (d 2 + 1)) = O

(n 2 d 2 ). Para otro paso de aglomeración arbitrario (es decir, de c1 a c1 - 1),

simplemente pasamos por las distancias "no utilizadas" n (n - 1) - c1 en la lista y

encontramos la más pequeña para la cual x y x 'se encuentran en diferentes grupos. Esto

es, nuevamente, O (n (n − 1) −c1). La complejidad del tiempo total es, por lo tanto, O

(cn 2 d 2 ), y en condiciones típicas n >> c.

Visualización

Una vez que los datos se dividen en grupos, es una buena práctica visualizar los grupos

para tener una idea de cómo se ve la agrupación. Pero visualizar estos datos de alta

dimensión es difícil. Por lo tanto, utilizamos el análisis de componentes principales (PCA)

para la visualización. Después de PCA, obtenemos los puntos de datos en el espacio de

baja dimensión (generalmente 2D o 3D) que podemos trazar para ver la agrupación.

(Gennclus: New models for general nonhierarchical clustering analysis, s.f.)

Nota: La dimensión alta significa una gran cantidad de características y no una cantidad

de puntos de datos.
Universidad Nacional de Costa Rica
Adan Rivera Sanchez
Evaluación
Uno de los métodos para la evaluación de grupos es que la distancia de los puntos

entre los grupos (distancia entre grupos) debe ser mucho mayor que la distancia de los

puntos dentro del grupo (distancia dentro del grupo). (clustering jerarquico, s.f.)

Bibliografía
(s.f.). Obtenido de algoritmo-agrupamiento-jerarquico-teoria: https://aprendeia.com/algoritmo-
agrupamiento-jerarquico-teoria/

Algoritmo de agrupamiento jerárquico. (s.f.). Obtenido de Algoritmo de agrupamiento jerárquico:


https://es.photo-555.com/6259733-hierarchical-clustering-algorithm

Clustering Analysis. (s.f.). Obtenido de Clustering Analysis:


https://link.springer.com/chapter/10.1007/978-3-642-96303-2_3

clustering jerarquico. (s.f.). Obtenido de clustering jerarquico:


https://estrategiastrading.com/clustering-jerarquico/

Gennclus: New models for general nonhierarchical clustering analysis. (s.f.). Obtenido de Gennclus:
New models for general nonhierarchical clustering analysis:
https://link.springer.com/article/10.1007%2FBF02293709

https://link.springer.com/chapter/10.1007/978-3-642-96303-2_3. (s.f.). Obtenido de


https://link.springer.com/chapter/10.1007/978-3-642-96303-2_3: Clustering Analysis

También podría gustarte