Está en la página 1de 78

DATA MINING:

Clustering
Emanuel Yaselga Alvarado
Clustering

“Sinónimos” según el contexto…

 Clustering (IA)

 Aprendizaje no supervisado (IA)

 Clasificación (Estadística)

 Segmentación (Marketing)

Emanuel Yaselga Alvarado


Clustering

Técnica de minería de datos (data mining) dentro de la disciplina de


Inteligencia Artificial que identifica de forma automática
agrupaciones o clústeres de elementos de acuerdo a una medida de
similitud entre ellos.
Similitud
inter-
clúster
Similitud baja
intra-
clúster Objetivo del clustering:
alta. identificar grupos de
elementos tal que:

Emanuel Yaselga Alvarado


Clustering

Encontrar agrupamientos de tal forma que los objetos


de un grupo sean similares entre sí y diferentes de los
objetos de otros grupos:

Maximizar
Minimizar distancia
distancia inter-cluster
intra-cluster

Emanuel Yaselga Alvarado


Clustering
 Aprendizaje no supervisado
No existen clases predefinidas
 Los resultados obtenidos dependerán de:

El algoritmo de La medida de similitud


agrupamiento utilizada para comparar
seleccionado. objetos.

El conjunto de datos
disponible

Emanuel Yaselga Alvarado


Clustering

Análisis de clusters Distancias y


similaridades
Jerárquicos Aglomerativos
Métodos
jerárquicos
Divisivos
K-medias
No jerárquicos
K-media

Emanuel Yaselga Alvarado


Clustering

Marketing:
Segmentación
de clientes
Mapas Clasificación de
temáticos (GIS) documentos

Análisis de web
Reconocimiento logs (patrones
Aplicaciones
de formas. de acceso
similares)

Aplicaciones típicas en Data Mining:


Emanuel Yaselga Alvarado
 Exploración de datos (segmentación & outliers)
 Preprocesamiento (p.ej. reducción de datos)
Clustering
¿Cuál es la forma natural de agrupar los personajes?

¡¡¡ El clustering es subjetivo !!!

Emanuel Yaselga Alvarado


Hombres vs. Mujeres Simpsons vs. Empleados
Medidas de similitud

¿Cuántos ¿Dos?
agrupamientos?

¿Seis? ¿Cuatro?
Emanuel Yaselga Alvarado
Medidas de similitud

Usualmente, se expresan en términos de distancias:


d(i,j) > d(i,k)
nos indica que el objeto i es más parecido a k que a j

La definición de la métrica de similitud/distancia


será distinta en función del tipo de dato y
de la interpretación semántica que nosotros hagamos.

En otras palabras, la similitud entre objetos es


subjetiva.

Emanuel Yaselga Alvarado


Medidas de similitud
Métricas de distancia
 Distancia de Minkowski

 Distancia de Manhattan (r=1) / city block / taxicab

 Distancia euclídea (r=2):

 Distancia de Chebyshev (r) / dominio / chessboard


Medidas de similitud
Métricas de distancia

 Distancia de Manhattan = 12
 Distancia Euclídea  8.5
 Distancia de Chebyshev = 6
Medidas de similitud
Métricas de distancia
Distancia de Chebyshev

 También conocida como distancia de


tablero de ajedrez (chessboard distance):
Número de movimientos que el rey ha
de hacer para llegar de una casilla a otra
en un tablero de ajedrez.
Medidas de similitud
Métricas de distancia
Distancia de Mahalanobis

 Considera las correlaciones


entre variables.

 No depende de la escala de medida.


Medidas de similitud
Métricas de distancia
 Positiva d(i,j)  0
 Propiedad reflexiva d(i,i) = 0
 Propiedad simétrica d(i,j) = d(j,i)
 Desigualdad triangular d(i,j)  d(i,k)+d(k,j)
Medidas de similitud
Métricas de distancia
Vecinos compartidos

i j i j
4

 “Mutual Neighbor Distance”

donde NN(xi,xj) es el número de vecino


de xj con respecto a xi
Métodos de agrupamiento
Requisitos del algoritmo “perfecto”
 Escalabilidad
 Manejo de distintos tipos de datos
 Identificación de clusters con formas arbitrarias
 Número mínimo de parámetros
 Tolerancia frente a ruido y outliers
 Independencia con respecto al orden de presentación de los patrones
de entrenamiento
 Posibilidad de trabajar en espacios con muchas dimensiones diferentes
 Capacidad de incorporar restricciones especificadas por el usuario
(“domain knowledge”)
 Interpretabilidad / Usabilidad

Emanuel Yaselga Alvarado


Métodos de agrupamiento
Tipos de algoritmos de clustering

 Agrupamiento por particiones


k-Means, CLARA

 Clustering jerárquico
BIRCH, ROCK, CHAMELEON

 Métodos basados en densidad


DBSCAN

 …

Emanuel Yaselga Alvarado


Métodos de agrupamiento
Clustering por particiones

Emanuel Yaselga Alvarado


Datos originales Datos agrupados
Métodos de agrupamiento
Clustering jerárquico

p1
p3 p4
p2
p1 p2 p3 p4
Tradicional DENDOGRAMA

p1
p3 p4
p2
p1 p2 p3 p4
No tradicional
Emanuel Yaselga Alvarado
Métodos de agrupamiento

Métodos basados en densidad


 Un cluster en una región densa de puntos, separada por regiones
poco densas de otras regiones densas.
 Útiles cuando los clusters tienen formas irregulares, están
entrelazados o hay ruido/outliers en los datos.

Emanuel Yaselga Alvarado


Cluster no Jerárquico o de partición

El clustering de partición entorno a centroides o medias realiza una


distribución de los elementos entre un número prefijado de clústeres
o grupos.

k-medias k- medoides
• En k-medias un grupo está • En k- medoides es más
representado con su centro en robusto que k-medias en
el algoritmo de k-medias , pero presencia de valores atípicos
se obtiene un objeto más PAM (Particiones Alrededor
cercano al centro del Medoids) es un algoritmo
agrupamiento clásico para k- medoides
agrupación.

Emanuel Yaselga Alvarado


k-Means
Algoritmo de agrupamiento por particiones
(MacQueen, 1967)
 Número de clusters conocido (k)
 Cada cluster tiene asociado un centroide
(centro geométrico del cluster).
 Los puntos se asignan al cluster cuyo centroide esté más cerca
(utilizando cualquier métrica de distancia).
 Iterativamente, se van actualizando los centroides en función de las
asignaciones de puntos a clusters, hasta que los centroides dejen de
cambiar.
 Complejidad O(n*k*I*d) donde n es el número de datos, k el
número de clusters, I el número de iteraciones y d el número de
atributos
Emanuel Yaselga Alvarado
k-Means

Iteration 6
1
2
3
4
5
3

2.5

1.5
y

0.5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2


x
Emanuel Yaselga Alvarado
k-Means
Iteration 1 Iteration 2 Iteration 3
3 3 3

2.5 2.5 2.5

2 2 2

1.5 1.5 1.5


y

y
1 1 1

0.5 0.5 0.5

0 0 0

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x

Iteration 4 Iteration 5 Iteration 6


3 3 3

2.5 2.5 2.5

2 2 2

1.5 1.5 1.5


y

y
1 1 1

0.5 0.5 0.5

0 0 0

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x

Emanuel Yaselga Alvarado


k-Means
3

2.5

2
Puntos originales
y 1.5

0.5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2


x

3 3

2.5 2.5

2 2

1.5 1.5
y

y
1 1

0.5 0.5

0 0

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2


x x
Emanuel Yaselga Alvarado
Solución óptima Óptimo local
k-Means
Ventaja
 Eficiencia O(n·k·I·d)
vs. PAM O(I·k(n-k)2)
CLARA O(ks2+k(n-k))
Desventajas
 Termina en un óptimo local:
El resultado depende de la selección inicial de centroides.
 Necesidad de conocer el número de agrupamientos k
 Incapacidad para detectar ruido / identificar outliers.
 No resulta adecuado para detectar clusters no convexos
 Si tenemos datos de tipo categórico,
¿cómo calculamos la media?
Emanuel Yaselga Alvarado
k-Means

Clusters de
distinto tamaño

Clusters de
distinta densidad

Clusters
no convexos

Emanuel Yaselga Alvarado


k-Means
Variantes

 GRASP [Greedy Randomized Adaptive Search Procedure]


para evitar óptimos locales.

 k-Modes (Huang’1998) utiliza modas en vez de medias


(para poder trabajar con atributos de tipo categórico).

 k-Medoids utiliza medianas en vez de medias para


limitar la influencia de los outliers

vg. PAM (Partitioning Around Medoids, 1987)


CLARA (Clustering LARge Applications, 1990)
Emanuel Yaselga Alvarado CLARANS (CLARA + Randomized Search, 1994)
Clustering jerárquico

La técnica de clustering jerárquico construye un dendograma o


árbol que representa las relaciones de similitud entre los distintos
elementos

• Se comienza con tantos clústeres


Clustering jerárquico como individuos
aglomerativo: • Formar(aglomerar) grupos según su
similitud.

• Se comienza con un único clúster


Clustering jerárquico • Dividir clústeres según la disimilitud
de división: entre sus componentes.

Emanuel Yaselga Alvarado


Clustering jerárquico

DENDROGRAMA: La similitud entre dos objetos viene


Emanuel Yaselga Alvarado dada por la “altura” del nodo común más cercano.
Clustering jerárquico

El DENDROGRAMA nos puede ayudar a determinar el


Emanuel Yaselga Alvarado número adecuado de agrupamientos (aunque
normalmente no será tan fácil).
Clustering jerárquico

Outlier

Emanuel Yaselga Alvarado El DENDROGRAMA


también nos puede servir para detectar outliers.
Clustering jerárquico

0 1 2 3 4
aglomerativo
(AGNES)
a AGglomerative NESting
ab
b abcde
c
cde
d
de
e
divisivo
4 3 2 1 0 (DIANA)
Divisive ANAlysis

En lugar de establecer de antemano el número de


Emanuel Yaselga Alvarado clusters, tenemos que definir un criterio de parada
Clustering jerárquico

¿Cómo medir la distancia entre clusters?

 MIN
single-link

 MAX
complete
linkage
(diameter)

Emanuel Yaselga Alvarado


Clustering jerárquico

¿Cómo medir la distancia entre clusters?

 Promedio

 Centroides
p.ej. BIRCH

 

Emanuel Yaselga Alvarado


Clustering jerárquico

Ejemplo

Utilizando un algoritmo aglomerativo de clustering jerárquico para


agrupar los datos descritos por la siguiente matriz de distancias:

Variantes:
 Single-link (mínima distancia entre agrupamientos)
 Complete-link (máxima distancia entre agrupamientos)

Emanuel Yaselga Alvarado


Clustering jerárquico
Ejercicio resuelto

Single-link

Complete-link

Emanuel Yaselga Alvarado


Clustering jerárquico
Datos sintéticos (4 clusters): Single-link

Emanuel Yaselga Alvarado


Clustering jerárquico
Datos sintéticos (4 clusters): Complete-link

Emanuel Yaselga Alvarado


Clustering jerárquico
Principal inconveniente del clustering jerárquico:

Baja escalabilidad ≥ O(n2)

Algoritmos “escalables”:
 BIRCH: Balanced Iterative Reducing and Clustering using
Hierarchies (Zhang, Ramakrishnan & Livny, SIGMOD’1996)

 ROCK: Robust Clustering using links


(Guha, Rastogi & Shim, ICDE’1999)

 CURE: Clustering Using Representatives


(Guha, Rastogi & Shim, SIGMOD’1998)

 CHAMELEON: Hierarchical Clustering Using Dynamic


Emanuel Yaselga Alvarado Modeling (Karypis, Han & Kumar, 1999)
Clustering jerárquico

CURE
Emanuel Yaselga Alvarado
Clustering jerárquico
Agrupamientos
con distintas
densidades

CURE
Emanuel Yaselga Alvarado
Clustering jerárquico

Partición del grafo

Clusters finales
Combinar
particiones

CHAMELEON
Emanuel Yaselga Alvarado
Clustering jerárquico

Emanuel Yaselga Alvarado


CHAMELEON
Density-based Clustering

Presentado en 1996 por Ester et al. como una forma de


identificar clusters siguiendo el modo intuitivo en el que lo hace el
cerebro humano, identificando regiones con alta densidad de
observaciones separadas por regiones de baja densidad.

Emanuel Yaselga Alvarado


Density-based Clustering

Criterio de agrupamiento local:

Densidad de puntos
Región densas de puntos separadas
de otras regiones densas por regiones poco densas

Características

 Identifica clusters de formas arbitrarias.

 Robusto ante la presencia de ruido

 Escalable: Un único recorrido del conjunto de datos


Emanuel Yaselga Alvarado
Density-based Clustering

los métodos de partición o jerárquicos de clustering como

k-means, hierarchical, k-medoids…

SON BUENOS encontrando agrupaciones con forma esférica


o convexa que no contengan un exceso de outliers o ruido,

PERO fallan al tratar de identificar formas arbitrarias.

Emanuel Yaselga Alvarado


Density-based Clustering

DBSCAN evita este problema El algoritmo DBSCAN necesita


considerando dos parámetros:

Epsilon (ϵ): radio que define la


Mínimo de observaciones vecinas
región vecina a una observación,
dentro de un radio de proximidad
también llamada ϵ-neighborhood.

Los clusters están separados por Minimum points (minPts): número


regiones vacías o con pocas mínimo de observaciones dentro
observaciones. de la región epsilon.

Emanuel Yaselga Alvarado


Density-based Clustering
Cada observación del set de datos se puede clasificar en una de las
siguientes tres categorías:

Core point:

Observación que tiene en su ϵ-neighborhood un número de observaciones vecinas


igual o mayor a minPts.

Border point:

Observación no satisface el mínimo de observaciones vecinas para ser core point pero
que pertenece al ϵ-neighborhood de otra observación que sí es core point.

Noise u outlier:

Observación que no es core point ni border point.


Emanuel Yaselga Alvarado
Density-based Clustering

Niveles de conectividad entre observaciones:

Directamente alcanzable (direct density reachable):

•Una observación A es directamente alcanzable desde otra


observación B si A forma parte del ϵ-neighborhood de B y B es un core point.
Por definición, las observaciones solo pueden ser directamente alcanzables
desde un core point.

Alcanzable (density reachable):

•Una observación A es alcanzable desde otra observación B si existe una


secuencia de core points que van desde B a A.

Densamente conectadas (density conected):

•Dos observaciones A y B están densamente conectadas si existe una


observación core point C tal que A y B son alcanzables desde C.

Emanuel Yaselga Alvarado


Density-based Clustering

minPts=4

Emanuel Yaselga Alvarado


Density-based Clustering

A modo orientativo se pueden seguir las siguientes premisas:

 minPts: cuanto mayor sea el tamaño del set de datos, mayor debe
ser el valor mínimo de observaciones vecinas. En el libro Practical
Guide to Cluster Analysis in R recomiendan no bajar nunca de 3.

 epsilon: una buena forma de escoger el valor de ϵ es estudiar las


distancias promedio entre las k=minPts observaciones más
próximas.

Emanuel Yaselga Alvarado


Density-based Clustering
Algoritmos

 DBSCAN: Density Based Spatial Clustering of


Applications with Noise (Ester et al., KDD’1996)

 OPTICS: Ordering Points To Identify the Clustering


Structure (Ankerst et al. SIGMOD’1999)

 DENCLUE: DENsity-based CLUstEring


(Hinneburg & Keim, KDD’1998)

 CLIQUE: Clustering in QUEst


(Agrawal et al., SIGMOD’1998)

 SNN (Shared Nearest Neighbor) density-based clustering


(Ertöz, Steinbach & Kumar, SDM’2003)
Emanuel Yaselga Alvarado
Density-based Clustering

Clusters

Emanuel Yaselga Alvarado


DBSCAN … cuando funciona bien
Density-based Clustering

Emanuel Yaselga Alvarado DBSCAN sensible al valor inicial de sus parámetros


Density-based Clustering
Ventajas de DBSCAN Desventajas de DBSCAN

• No requiere que el usuario • No es un método totalmente


especifique el número determinístico: los border points que
de clusters. son alcanzables desde más de
• Es independiente de la forma un cluster pueden asignarse a uno u
que tengan los clusters, no otro dependiendo del orden en el
tienen por qué ser circulares. que se procesen los datos.
• Puede identificar outliers, por • No genera buenos resultados cuando
lo que los clusters generados la densidad de los grupos es muy
no se influenciados por ellos. distinta, ya que no es posible
encontrar los
parámetros ϵ y minPts que sirvan para
todos a la vez.

Emanuel Yaselga Alvarado


Density-based Clustering

i j i j
4

Emanuel Yaselga Alvarado


SNN density-based clustering… O(n2)
Validación del clustering

Cada uno de los métodos de clustering da lugar a resultados


distintos.

La validación de clusters es el proceso por el cual se evalúa la


veracidad de los grupos obtenidos.

Estudio de la Estudio de la
tendencia calidad/significancia
de clustering, de los clusters

Elección del número


óptimo de clusters
Emanuel Yaselga Alvarado
Validación del clustering
Estudio de la tendencia de clustering
Assessing cluster tendecy

Evaluar si hay indicios de que realmente existe algún tipo de agrupación


en ellos.

Test estadísticos
(Hopkins statistic)

Forma visual
(Visual Assessment
of cluster
Tendency)

Emanuel Yaselga Alvarado


Validación del clustering

Estudio de la tendencia de clustering


Test estadísticos (Hopkins statistic)

Permite evaluar la tendencia de clustering de un conjunto de datos mediante el


cálculo de la probabilidad de que dichos datos procedan de una distribución
uniforme

Emanuel Yaselga Alvarado


Validación del clustering
Estudio de la tendencia de clustering
Forma visual (Visual Assessment of cluster Tendency)

VAT es método que permite evaluar visualmente si los datos muestran indicios
de algún tipo de agrupación. Se representa gráficamente la matriz de
distancias ordenada, empleando un gradiente de color para el valor de las
distancias. Si existen agrupaciones subyacentes en los datos se forma un
patrón de bloques cuadrados.

Emanuel Yaselga Alvarado


Validación del clustering

Número óptimo de clusters

 No existe una forma única de averiguar el número adecuado


de clusters.
 Es un proceso bastante subjetivo que depende en gran medida del tipo
de clustering empleado y de si se dispone de información previa sobre
los datos con los que se está trabajando

 Estrategias que ayudan en el proceso.

Average Gap statistic


Elbow method
silhouette method method

Emanuel Yaselga Alvarado


Validación del clustering
Elbow method

 El método Elbow calcula la varianza total intra-cluster en función del


número de clusters y escoge como óptimo aquel valor a partir del cual
añadir más clusters apenas consigue mejoría.

Emanuel Yaselga Alvarado


Validación del clustering

Average silhouette method

 Se maximiza la media de los silhouette coeficient o índices silueta (si).


 Este coeficiente cuantifica cómo de buena es la asignación que se ha
hecho de una observación comparando su similitud con el resto de
observaciones de su cluster frente a las de los otros clusters.
 Su valor puede estar entre -1 y 1, siendo valores altos un indicativo de
que la observación se ha asignado al cluster correcto.
 El valor de silhouette como:

Emanuel Yaselga Alvarado


Validación del clustering
Average silhouette method

ai: promedio de las distancias entre la observación i y el resto de


observaciones que pertenecen al mismo cluster. cuanto menor sea ai,
mejor ha sido la asignación de i a su cluster.
 bi: la menor de las distancias promedio entre ii y el resto de clusters,
es decir, la distancia al cluster más próximo (neighbouring cluster)

Emanuel Yaselga Alvarado


Validación del clustering

Gap statistic method

 El estadístico gap fue publicado por R.Tibshirani, G.Walther y T. Hastie.


 Este estadístico compara, para diferentes valores de k, la varianza
total intra-cluster observada frente al valor esperado acorde a una
distribución uniforme de referencia.
 Encuentra el valor de k con el que se consigue una estructura
de clusters lo más alejada posible de una distribución uniforme
aleatoria.

Emanuel Yaselga Alvarado


Validación del clustering

Gap statistic method


El algoritmo del gap statistic method es el siguiente:

 Hacer clustering de los datos para un rango de valores de k (k=1, …, K=n) y


calcular para cada uno el valor de la varianza total intra-cluster (Wk).
 Simular B sets de datos de referencia con una distribución aleatoria uniforme.
 Aplicar clustering a cada uno de los sets con el mismo rango de valores k
empleado en los datos originales, calculando en cada caso la varianza
total intra-cluster(Wkb).
 Calcular el estadístico gap para cada valor de k como la desviación de la
varianza observada Wk respecto del valor esperado acorde a la distribución de
referencia (Wkb).

Emanuel Yaselga Alvarado


Validación del clustering

Gap statistic method


 Identificar el número de clusters óptimo como el menor de los valores k para el
que el estadístico gap se aleja menos de una desviación estándar del
valor gap del siguiente k:

Emanuel Yaselga Alvarado


Validación del clustering
Calidad de los clusters

Una vez seleccionado el número adecuado de clusters y aplicado el algoritmo


de clustering pertinente se tiene que evaluar la calidad de los de los mismos,
de lo contrario, podrían derivarse conclusiones de agrupación que no se
corresponden con la realidad.
Validación interna de Validación externa de
los clusters: los clusters (ground truth):
• Emplean únicamente • Combinan los resultados
información interna del del clustering(unsupervised)
proceso de clustering para con información externa
evaluar la bondad de las (supervised), como puede ser
agrupaciones generadas. un set de validación en el que
se conoce el verdadero grupo
al que pertenece cada
observación.
Emanuel Yaselga Alvarado
Validación del clustering

Calidad de los clusters

La idea principal detrás del clustering es agrupar las observaciones de forma


que sean similares a aquellas que están dentro de un mismo cluster y distintas a
las de otros clusters,

Homogeneidad (también llamada compactness o cohesion) y la separación


entre clusters. sea lo mayor posible

Emanuel Yaselga Alvarado


Validación del clustering

Calidad de los clusters


Silhouette width

El valor de silhouette es:

 Su valor puede estar entre -1 y 1, siendo valores altos un indicativo de que la


observación se ha asignado al cluster correcto.
 Cuando su valor es próximo a cero significa que la observación se encuentra en
un punto intermedio entre dos clusters.
 Valores negativos apuntan a una posible asignación incorrecta de la
observación.

Emanuel Yaselga Alvarado


Validación del clustering

Calidad de los clusters


Silhouette width

El método permite evaluar el resultado del clustering a múltiples niveles:

• La calidad de asignación de cada observación por separado. Permitiendo


identificar potenciales asignaciones erróneas (valores negativos de silhouette).
• La calidad de cada cluster a partir del promedio de los índices silhouette de
todas las observaciones que lo forman.
• Si por ejemplo se han introducido demasiados clusters, es muy probable
que algunos de ellos tengan un valor promedio mucho menor que el resto.
• La calidad de la estructura de clusters en su conjunto a partir del promedio de
todos los índices silhouette.

Emanuel Yaselga Alvarado


Otros métodos

Grids multiresolución

 STING, a STatistical INformation Grid approach


(Wang, Yang & Muntz, VLDB’1997)

 WaveCluster, basado en wavelets


(Sheikholeslami, Chatterjee & Zhang, VLDB’1998)

 CLIQUE: CLustering In QUEst


(Agrawal et al., SIGMOD’1998)

Emanuel Yaselga Alvarado


Otros métodos
Clustering basado en modelos

Ajustar los datos a un modelo matemático


Se supone que los datos provienen de la superposición
de varias distribuciones de probabilidad.

Algoritmos
 Estadística:
EM [Expectation Maximization], AutoClass
 Clustering conceptual (Machine Learning):
COBWEB, CLASSIT
 Redes neuronales:
SOM [Self-Organizing Maps]
Emanuel Yaselga Alvarado
Bibliografía
 R. Agrawal, J. Gehrke, D. Gunopulos, and P. Raghavan. Automatic subspace clustering of high
dimensional data for data mining applications. SIGMOD'98

 M. Ankerst, M. Breunig, H.-P. Kriegel, and J. Sander. Optics: Ordering points to identify the clustering
structure, SIGMOD’99.

 L. Ertöz, M. Steinbach, and V. Kumar. Finding clusters of different sizes, shapes, and densities in noisy,
high-dimensional data, SDM’2003

 M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in
large spatial databases. KDD'96.

 D. Fisher. Knowledge acquisition via incremental conceptual clustering. Machine Learning, 2:139-
172, 1987.

 D. Gibson, J. Kleinberg, and P. Raghavan. Clustering categorical data: An approach based on


dynamic systems. VLDB’98

 S. Guha, R. Rastogi, and K. Shim. Cure: An efficient clustering algorithm for large databases.
SIGMOD'98.

 S. Guha, R. Rastogi, and K. Shim. ROCK: A robust clustering algorithm for categorical attributes. In
ICDE'99, Sydney, Australia, March 1999.

Emanuel Yaselga Alvarado


Bibliografía

 A. Hinneburg, D.l A. Keim: An Efficient Approach to Clustering in Large Multimedia Databases with Noise.
KDD’98.

 G. Karypis, E.-H. Han, and V. Kumar. CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic
Modeling. COMPUTER, 32(8): 68-75, 1999.

 L. Parsons, E. Haque and H. Liu, Subspace Clustering for High Dimensional Data: A Review , SIGKDD
Explorations, 6(1), June 2004

 G. Sheikholeslami, S. Chatterjee, and A. Zhang. WaveCluster: A multi-resolution clustering approach for very
large spatial databases. VLDB’98.

 A. K. H. Tung, J. Hou, and J. Han. Spatial Clustering in the Presence of Obstacles , ICDE'01

 H. Wang, W. Wang, J. Yang, and P.S. Yu. Clustering by pattern similarity in large data sets, SIGMOD’ 02.

 W. Wang, Yang, R. Muntz, STING: A Statistical Information grid Approach to Spatial Data Mining, VLDB’97.

 T. Zhang, R. Ramakrishnan, and M. Livny. BIRCH : an efficient data clustering method for very large
databases. SIGMOD'96.

Emanuel Yaselga Alvarado


Créditos
 Jiawei Han (University of Illinois at Urbana-Champaign): “Data Mining:
Concepts and Techniques”, capítulo 7, 2006

 Pang-Ning Tan (Michigan State University), Michael Steinbach & Vipin Kumar
(University of Minnesota): “Introduction to Data Mining”, capítulos 8 y 9, 2006

Emanuel Yaselga Alvarado

También podría gustarte