Clustering Jerarquico PDF

Clustering jerárquico
Christopher Expósito Izquierdo

Airam Expósito Márquez
Israel López Plata
Belén Melián Batista
J. Marcos Moreno Vega
{cexposit, aexposim, ilopezpl, mbmelian, jmmoreno}@ull.edu.es
Departamento de Ingenierı́a Informática y de Sistemas
Universidad de La Laguna
Índice
1. CLUSTERING JERÁRQUICO
Procedimientos aglomerativos y divisivos
Medidas de proximidad
Método de Ward
2. BIBLIOGRAFÍA
1
CLUSTERING JERÁRQUICO
Observaciones
• Una de las mayores dificultades al agrupar elementos es encontrar el

número apropiado de clusters.
• Los métodos jerárquicos construyen una estructura en la que los ele-
mentos se agrupan en subconjuntos cada vez mayores hasta que todos
pertenecen al mismo conjunto.
• De esta forma, no se muestra un agrupamiento sino las relaciones de
proximidad que existen entre los elementos.
2
Procedimientos básicos
• Aglomerativos. Inicialmente se forman clusters individuales, cada

uno de los cuales contiene a un único elemento. En cada iteración se
unen los dos clusters más próximos. El procedimiento finaliza cuando
solo haya un cluster.
• Divisivos. Se parte de un único cluster al que pertenecen todos los
elementos. En cada iteración se escoge un cluster y se divide.
Debe decidirse qué cluster se selecciona para dividir y cómo se divide.
El procedimiento finaliza cuando hayan tanto clusters como elementos.
3
Dendrograma (i)
• El clustering jerárquico suele representarse a través de un dendograma,

que muestra en qué orden se han unido los cluster y cuál es el grado de
proximidad que tienen los clusters que se unen.
• Los nodos hojas del dendograma se corresponden con los elementos
individuales.
• En el nodo raı́z se representa el cluster al que pertenecen todos los
elementos.
• El resto de nodos se corresponde con los clusters que se van formando.
4
Dendrograma (ii)
a b c d e f g h
5
Dendrograma. Cómo se construye
Nivel 1 4,70
Nivel 2 4,30
Nivel 3 4,00
Nivel 4 3,50
Nivel 5 2,25
Nivel 6 1,50
Nivel 7 1,00
a b c d e f g h
6
Dendrograma. Cómo se genera un agrupamiento (i)
• El dendrograma puede usarse para generar diferentes agrupamientos.

• Para ello, se selecciona un nivel y se poda el dendrograma descartando
los hijos de los nodos con nivel igual o superior al nivel seleccionado. Los
nodos hojas del árbol resultante dan el agrupamiento buscado.
• Dependiendo del nivel seleccionado se obtienen agrupamientos con
clusters más o menos compactos.
7
Dendrograma. Cómo se genera un agrupamiento (ii)
• Nivel seleccionado = 6
Nivel 1
Nivel 2
Nivel 3
Nivel 4
Nivel 5
Nivel 6
(e, f)
Nivel 7
(a, b)
c d g h
8
Dendrograma. Cómo se genera un agrupamiento (iii)
• Nivel seleccionado = 4
Nivel 1
Nivel 2
Nivel 3
Nivel 4
(d, e, f)
Nivel 5
(a, b, c)
Nivel 6
Nivel 7
g h
9
Algorithm 1: Algoritmo aglomerativo básico
Matriz de proximidad
Obtener la proximidad entre cada par de elementos;
repeat
Unir los dos clusters más próximos;
Actualizar la matriz de proximidad;
until Solo hay un cluster ;
10
Medidas de proximidad entre clusters (i)
• Enlace simple (single link). La proximidad entre dos clusters se

define como la proximidad entre los dos elementos más próximos que
pertenecen a clusters diferentes.
• Enlace completo (complete link). La proximidad entre dos clusters
se define como la proximidad entre los dos elementos menos próximos
que pertenecen a clusters diferentes.
• Promedio del grupo (group average). La proximidad entre dos
clusters se define como la proximidad promedio entre todos los pares de
elementos que pertenecen a clusters diferentes.
11
Medidas de proximidad entre clusters (ii)
• Proximidad basada en centroides. La proximidad entre dos clusters

se define como la proximidad entre los centroides de cada cluster.
• Tras unir dos clusters debe obtenerse el centroide del nuevo cluster.
Algunas alternativas para ello son:
• Obtener el centroide como el punto central del nuevo cluster.

• Obtener el centroide como la suma ponderada de los centroides de
los clusters que se unen usando la siguiente expresión:

N 1 · x1 + N 2 · y1 N 1 · x2 + N 2 · y2 N 1 · xn + N 2 · yn
c= , ,...,
N1 + N2 N1 + N2 N1 + N2
con (xi , x2 , . . . , xn ) e (y1 , y2 , . . . , yn ) los centroides de los cluster y N1
e N2 el número de elementos en cada uno de ellos.
12
Método de Ward
• Método de Ward. La medida de proximidad usada es la suma de

errores al cuadrado.
De esta manera, en cada etapa se unen los dos clusters que dan lugar
al cluster con menor suma de errores al cuadrado.
13
BIBLIOGRAFÍA
Bibliografı́a
Tan, P.-N., Steinbach, M., and Kumar, V.

Introduction to Data Mining.
Addison-Wesley, 2006.
14
Licencia
Esta obra está bajo una licencia de Creative Commons.

Reconocimiento - No comercial - Compartir igual
15

Clustering Jerarquico PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clustering Jerarquico PDF

Cargado por

Copyright:

Formatos disponibles

Clustering jerárquico

Christopher Expósito Izquierdo

Procedimientos aglomerativos y divisivos

• Una de las mayores dificultades al agrupar elementos es encontrar el

• Aglomerativos. Inicialmente se forman clusters individuales, cada

• El clustering jerárquico suele representarse a través de un dendograma,

Dendrograma. Cómo se construye

Dendrograma. Cómo se genera un agrupamiento (i)

• El dendrograma puede usarse para generar diferentes agrupamientos.

Dendrograma. Cómo se genera un agrupamiento (ii)

Dendrograma. Cómo se genera un agrupamiento (iii)

Algorithm 1: Algoritmo aglomerativo básico

Medidas de proximidad entre clusters (i)

• Enlace simple (single link). La proximidad entre dos clusters se

Medidas de proximidad entre clusters (ii)

• Proximidad basada en centroides. La proximidad entre dos clusters

• Obtener el centroide como el punto central del nuevo cluster.

• Método de Ward. La medida de proximidad usada es la suma de

Tan, P.-N., Steinbach, M., and Kumar, V.

Esta obra está bajo una licencia de Creative Commons.

También podría gustarte