Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clustering
Emanuel Yaselga Alvarado
Clustering
Clustering (IA)
Clasificación (Estadística)
Segmentación (Marketing)
Maximizar
Minimizar distancia
distancia inter-cluster
intra-cluster
El conjunto de datos
disponible
Marketing:
Segmentación
de clientes
Mapas Clasificación de
temáticos (GIS) documentos
Análisis de web
Reconocimiento logs (patrones
Aplicaciones
de formas. de acceso
similares)
¿Cuántos ¿Dos?
agrupamientos?
¿Seis? ¿Cuatro?
Emanuel Yaselga Alvarado
Medidas de similitud
Distancia de Manhattan = 12
Distancia Euclídea 8.5
Distancia de Chebyshev = 6
Medidas de similitud
Métricas de distancia
Distancia de Chebyshev
i j i j
4
Clustering jerárquico
BIRCH, ROCK, CHAMELEON
…
p1
p3 p4
p2
p1 p2 p3 p4
Tradicional DENDOGRAMA
p1
p3 p4
p2
p1 p2 p3 p4
No tradicional
Emanuel Yaselga Alvarado
Métodos de agrupamiento
k-medias k- medoides
• En k-medias un grupo está • En k- medoides es más
representado con su centro en robusto que k-medias en
el algoritmo de k-medias , pero presencia de valores atípicos
se obtiene un objeto más PAM (Particiones Alrededor
cercano al centro del Medoids) es un algoritmo
agrupamiento clásico para k- medoides
agrupación.
Iteration 6
1
2
3
4
5
3
2.5
1.5
y
0.5
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
2.5
2
Puntos originales
y 1.5
0.5
3 3
2.5 2.5
2 2
1.5 1.5
y
y
1 1
0.5 0.5
0 0
Clusters de
distinto tamaño
Clusters de
distinta densidad
Clusters
no convexos
Outlier
0 1 2 3 4
aglomerativo
(AGNES)
a AGglomerative NESting
ab
b abcde
c
cde
d
de
e
divisivo
4 3 2 1 0 (DIANA)
Divisive ANAlysis
MIN
single-link
MAX
complete
linkage
(diameter)
Promedio
Centroides
p.ej. BIRCH
Ejemplo
Variantes:
Single-link (mínima distancia entre agrupamientos)
Complete-link (máxima distancia entre agrupamientos)
Single-link
Complete-link
Algoritmos “escalables”:
BIRCH: Balanced Iterative Reducing and Clustering using
Hierarchies (Zhang, Ramakrishnan & Livny, SIGMOD’1996)
CURE
Emanuel Yaselga Alvarado
Clustering jerárquico
Agrupamientos
con distintas
densidades
CURE
Emanuel Yaselga Alvarado
Clustering jerárquico
Clusters finales
Combinar
particiones
CHAMELEON
Emanuel Yaselga Alvarado
Clustering jerárquico
Densidad de puntos
Región densas de puntos separadas
de otras regiones densas por regiones poco densas
Características
Core point:
Border point:
Observación no satisface el mínimo de observaciones vecinas para ser core point pero
que pertenece al ϵ-neighborhood de otra observación que sí es core point.
Noise u outlier:
minPts=4
minPts: cuanto mayor sea el tamaño del set de datos, mayor debe
ser el valor mínimo de observaciones vecinas. En el libro Practical
Guide to Cluster Analysis in R recomiendan no bajar nunca de 3.
Clusters
i j i j
4
Estudio de la Estudio de la
tendencia calidad/significancia
de clustering, de los clusters
Test estadísticos
(Hopkins statistic)
Forma visual
(Visual Assessment
of cluster
Tendency)
VAT es método que permite evaluar visualmente si los datos muestran indicios
de algún tipo de agrupación. Se representa gráficamente la matriz de
distancias ordenada, empleando un gradiente de color para el valor de las
distancias. Si existen agrupaciones subyacentes en los datos se forma un
patrón de bloques cuadrados.
Grids multiresolución
Algoritmos
Estadística:
EM [Expectation Maximization], AutoClass
Clustering conceptual (Machine Learning):
COBWEB, CLASSIT
Redes neuronales:
SOM [Self-Organizing Maps]
Emanuel Yaselga Alvarado
Bibliografía
R. Agrawal, J. Gehrke, D. Gunopulos, and P. Raghavan. Automatic subspace clustering of high
dimensional data for data mining applications. SIGMOD'98
M. Ankerst, M. Breunig, H.-P. Kriegel, and J. Sander. Optics: Ordering points to identify the clustering
structure, SIGMOD’99.
L. Ertöz, M. Steinbach, and V. Kumar. Finding clusters of different sizes, shapes, and densities in noisy,
high-dimensional data, SDM’2003
M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in
large spatial databases. KDD'96.
D. Fisher. Knowledge acquisition via incremental conceptual clustering. Machine Learning, 2:139-
172, 1987.
S. Guha, R. Rastogi, and K. Shim. Cure: An efficient clustering algorithm for large databases.
SIGMOD'98.
S. Guha, R. Rastogi, and K. Shim. ROCK: A robust clustering algorithm for categorical attributes. In
ICDE'99, Sydney, Australia, March 1999.
A. Hinneburg, D.l A. Keim: An Efficient Approach to Clustering in Large Multimedia Databases with Noise.
KDD’98.
G. Karypis, E.-H. Han, and V. Kumar. CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic
Modeling. COMPUTER, 32(8): 68-75, 1999.
L. Parsons, E. Haque and H. Liu, Subspace Clustering for High Dimensional Data: A Review , SIGKDD
Explorations, 6(1), June 2004
G. Sheikholeslami, S. Chatterjee, and A. Zhang. WaveCluster: A multi-resolution clustering approach for very
large spatial databases. VLDB’98.
A. K. H. Tung, J. Hou, and J. Han. Spatial Clustering in the Presence of Obstacles , ICDE'01
H. Wang, W. Wang, J. Yang, and P.S. Yu. Clustering by pattern similarity in large data sets, SIGMOD’ 02.
W. Wang, Yang, R. Muntz, STING: A Statistical Information grid Approach to Spatial Data Mining, VLDB’97.
T. Zhang, R. Ramakrishnan, and M. Livny. BIRCH : an efficient data clustering method for very large
databases. SIGMOD'96.
Pang-Ning Tan (Michigan State University), Michael Steinbach & Vipin Kumar
(University of Minnesota): “Introduction to Data Mining”, capítulos 8 y 9, 2006