Clustering Ciencia Datos

DATA MINING:
Clustering
Emanuel Yaselga Alvarado
Clustering
“Sinónimos” según el contexto…
 Clustering (IA)
 Aprendizaje no supervisado (IA)
 Clasificación (Estadística)
 Segmentación (Marketing)

Clustering
Técnica de minería de datos (data mining) dentro de la disciplina de

Inteligencia Artificial que identifica de forma automática
agrupaciones o clústeres de elementos de acuerdo a una medida de
similitud entre ellos.
Similitud
inter-
clúster
Similitud baja
intra-
clúster Objetivo del clustering:
alta. identificar grupos de
elementos tal que:

Clustering
Encontrar agrupamientos de tal forma que los objetos

de un grupo sean similares entre sí y diferentes de los
objetos de otros grupos:
Maximizar
Minimizar distancia
distancia inter-cluster
intra-cluster

Clustering
 Aprendizaje no supervisado
No existen clases predefinidas
 Los resultados obtenidos dependerán de:
El algoritmo de La medida de similitud

agrupamiento utilizada para comparar
seleccionado. objetos.
El conjunto de datos
disponible

Clustering
Análisis de clusters Distancias y

similaridades
Jerárquicos Aglomerativos
Métodos
jerárquicos
Divisivos
K-medias
No jerárquicos
K-media

Clustering
Marketing:
Segmentación
de clientes
Mapas Clasificación de
temáticos (GIS) documentos
Análisis de web
Reconocimiento logs (patrones
Aplicaciones
de formas. de acceso
similares)
Aplicaciones típicas en Data Mining:

 Exploración de datos (segmentación & outliers)
 Preprocesamiento (p.ej. reducción de datos)
Clustering
¿Cuál es la forma natural de agrupar los personajes?
¡¡¡ El clustering es subjetivo !!!

Hombres vs. Mujeres Simpsons vs. Empleados
Medidas de similitud
¿Cuántos ¿Dos?
agrupamientos?
¿Seis? ¿Cuatro?
Usualmente, se expresan en términos de distancias:

d(i,j) > d(i,k)
nos indica que el objeto i es más parecido a k que a j
La definición de la métrica de similitud/distancia

será distinta en función del tipo de dato y
de la interpretación semántica que nosotros hagamos.
En otras palabras, la similitud entre objetos es

subjetiva.

Métricas de distancia
 Distancia de Minkowski
 Distancia de Manhattan (r=1) / city block / taxicab
 Distancia euclídea (r=2):
 Distancia de Chebyshev (r) / dominio / chessboard

 Distancia de Manhattan = 12
 Distancia Euclídea  8.5
 Distancia de Chebyshev = 6
Distancia de Chebyshev
 También conocida como distancia de

tablero de ajedrez (chessboard distance):
Número de movimientos que el rey ha
de hacer para llegar de una casilla a otra
en un tablero de ajedrez.
Distancia de Mahalanobis
 Considera las correlaciones

entre variables.
 No depende de la escala de medida.

 Positiva d(i,j)  0
 Propiedad reflexiva d(i,i) = 0
 Propiedad simétrica d(i,j) = d(j,i)
 Desigualdad triangular d(i,j)  d(i,k)+d(k,j)
Vecinos compartidos
i j i j
4
 “Mutual Neighbor Distance”
donde NN(xi,xj) es el número de vecino

de xj con respecto a xi
Métodos de agrupamiento
Requisitos del algoritmo “perfecto”
 Escalabilidad
 Manejo de distintos tipos de datos
 Identificación de clusters con formas arbitrarias
 Número mínimo de parámetros
 Tolerancia frente a ruido y outliers
 Independencia con respecto al orden de presentación de los patrones
de entrenamiento
 Posibilidad de trabajar en espacios con muchas dimensiones diferentes
 Capacidad de incorporar restricciones especificadas por el usuario
(“domain knowledge”)
 Interpretabilidad / Usabilidad

Tipos de algoritmos de clustering
 Agrupamiento por particiones

k-Means, CLARA
 Clustering jerárquico
BIRCH, ROCK, CHAMELEON
 Métodos basados en densidad

DBSCAN
 …

Clustering por particiones

Datos originales Datos agrupados
Clustering jerárquico
p1
p3 p4
p2
p1 p2 p3 p4
Tradicional DENDOGRAMA
p1
p3 p4
p2
p1 p2 p3 p4
No tradicional
Métodos basados en densidad

 Un cluster en una región densa de puntos, separada por regiones
poco densas de otras regiones densas.
 Útiles cuando los clusters tienen formas irregulares, están
entrelazados o hay ruido/outliers en los datos.

Cluster no Jerárquico o de partición
El clustering de partición entorno a centroides o medias realiza una

distribución de los elementos entre un número prefijado de clústeres
o grupos.
k-medias k- medoides
• En k-medias un grupo está • En k- medoides es más
representado con su centro en robusto que k-medias en
el algoritmo de k-medias , pero presencia de valores atípicos
se obtiene un objeto más PAM (Particiones Alrededor
cercano al centro del Medoids) es un algoritmo
agrupamiento clásico para k- medoides
agrupación.

k-Means
Algoritmo de agrupamiento por particiones
(MacQueen, 1967)
 Número de clusters conocido (k)
 Cada cluster tiene asociado un centroide
(centro geométrico del cluster).
 Los puntos se asignan al cluster cuyo centroide esté más cerca
(utilizando cualquier métrica de distancia).
 Iterativamente, se van actualizando los centroides en función de las
asignaciones de puntos a clusters, hasta que los centroides dejen de
cambiar.
 Complejidad O(n*k*I*d) donde n es el número de datos, k el
número de clusters, I el número de iteraciones y d el número de
atributos
k-Means
Iteration 6
1
2
3
4
5
3
2.5
1.5
y
0.5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

x
k-Means
Iteration 1 Iteration 2 Iteration 3
3 3 3
2.5 2.5 2.5
2 2 2
1.5 1.5 1.5

y
y
1 1 1
0.5 0.5 0.5
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
Iteration 4 Iteration 5 Iteration 6

3 3 3
2.5 2.5 2.5
2 2 2
1.5 1.5 1.5

y
y
1 1 1
0.5 0.5 0.5
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x

k-Means
3
2.5
2
Puntos originales
y 1.5
0.5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

x
3 3
2.5 2.5
2 2
1.5 1.5
y
y
1 1
0.5 0.5
0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

x x
Solución óptima Óptimo local
k-Means
Ventaja
 Eficiencia O(n·k·I·d)
vs. PAM O(I·k(n-k)2)
CLARA O(ks2+k(n-k))
Desventajas
 Termina en un óptimo local:
El resultado depende de la selección inicial de centroides.
 Necesidad de conocer el número de agrupamientos k
 Incapacidad para detectar ruido / identificar outliers.
 No resulta adecuado para detectar clusters no convexos
 Si tenemos datos de tipo categórico,
¿cómo calculamos la media?
k-Means
Clusters de
distinto tamaño
Clusters de
distinta densidad
Clusters
no convexos

k-Means
Variantes
 GRASP [Greedy Randomized Adaptive Search Procedure]

para evitar óptimos locales.
 k-Modes (Huang’1998) utiliza modas en vez de medias

(para poder trabajar con atributos de tipo categórico).
 k-Medoids utiliza medianas en vez de medias para

limitar la influencia de los outliers
vg. PAM (Partitioning Around Medoids, 1987)

CLARA (Clustering LARge Applications, 1990)
Emanuel Yaselga Alvarado CLARANS (CLARA + Randomized Search, 1994)
La técnica de clustering jerárquico construye un dendograma o

árbol que representa las relaciones de similitud entre los distintos
elementos
• Se comienza con tantos clústeres

Clustering jerárquico como individuos
aglomerativo: • Formar(aglomerar) grupos según su
similitud.
• Se comienza con un único clúster

Clustering jerárquico • Dividir clústeres según la disimilitud
de división: entre sus componentes.

DENDROGRAMA: La similitud entre dos objetos viene

Emanuel Yaselga Alvarado dada por la “altura” del nodo común más cercano.
El DENDROGRAMA nos puede ayudar a determinar el

Emanuel Yaselga Alvarado número adecuado de agrupamientos (aunque
normalmente no será tan fácil).
Outlier
Emanuel Yaselga Alvarado El DENDROGRAMA

también nos puede servir para detectar outliers.
0 1 2 3 4
aglomerativo
(AGNES)
a AGglomerative NESting
ab
b abcde
c
cde
d
de
e
divisivo
4 3 2 1 0 (DIANA)
Divisive ANAlysis
En lugar de establecer de antemano el número de

Emanuel Yaselga Alvarado clusters, tenemos que definir un criterio de parada
¿Cómo medir la distancia entre clusters?
 MIN
single-link
 MAX
complete
linkage
(diameter)

¿Cómo medir la distancia entre clusters?
 Promedio
 Centroides
p.ej. BIRCH
 

Ejemplo
Utilizando un algoritmo aglomerativo de clustering jerárquico para

agrupar los datos descritos por la siguiente matriz de distancias:
Variantes:
 Single-link (mínima distancia entre agrupamientos)
 Complete-link (máxima distancia entre agrupamientos)

Ejercicio resuelto
Single-link
Complete-link

Datos sintéticos (4 clusters): Single-link

Datos sintéticos (4 clusters): Complete-link

Principal inconveniente del clustering jerárquico:
Baja escalabilidad ≥ O(n2)
Algoritmos “escalables”:
 BIRCH: Balanced Iterative Reducing and Clustering using
Hierarchies (Zhang, Ramakrishnan & Livny, SIGMOD’1996)
 ROCK: Robust Clustering using links

(Guha, Rastogi & Shim, ICDE’1999)
 CURE: Clustering Using Representatives

(Guha, Rastogi & Shim, SIGMOD’1998)
 CHAMELEON: Hierarchical Clustering Using Dynamic

Emanuel Yaselga Alvarado Modeling (Karypis, Han & Kumar, 1999)
CURE
Agrupamientos
con distintas
densidades
CURE
Partición del grafo
Clusters finales
Combinar
particiones
CHAMELEON

CHAMELEON
Density-based Clustering
Presentado en 1996 por Ester et al. como una forma de

identificar clusters siguiendo el modo intuitivo en el que lo hace el
cerebro humano, identificando regiones con alta densidad de
observaciones separadas por regiones de baja densidad.

Criterio de agrupamiento local:
Densidad de puntos
Región densas de puntos separadas
de otras regiones densas por regiones poco densas
Características
 Identifica clusters de formas arbitrarias.
 Robusto ante la presencia de ruido
 Escalable: Un único recorrido del conjunto de datos

los métodos de partición o jerárquicos de clustering como
k-means, hierarchical, k-medoids…
SON BUENOS encontrando agrupaciones con forma esférica

o convexa que no contengan un exceso de outliers o ruido,
PERO fallan al tratar de identificar formas arbitrarias.

DBSCAN evita este problema El algoritmo DBSCAN necesita

considerando dos parámetros:
Epsilon (ϵ): radio que define la

Mínimo de observaciones vecinas
región vecina a una observación,
dentro de un radio de proximidad
también llamada ϵ-neighborhood.
Los clusters están separados por Minimum points (minPts): número

regiones vacías o con pocas mínimo de observaciones dentro
observaciones. de la región epsilon.

Cada observación del set de datos se puede clasificar en una de las
siguientes tres categorías:
Core point:
Observación que tiene en su ϵ-neighborhood un número de observaciones vecinas

igual o mayor a minPts.
Border point:
Observación no satisface el mínimo de observaciones vecinas para ser core point pero
que pertenece al ϵ-neighborhood de otra observación que sí es core point.
Noise u outlier:
Observación que no es core point ni border point.

Niveles de conectividad entre observaciones:
Directamente alcanzable (direct density reachable):
•Una observación A es directamente alcanzable desde otra

observación B si A forma parte del ϵ-neighborhood de B y B es un core point.
Por definición, las observaciones solo pueden ser directamente alcanzables
desde un core point.
Alcanzable (density reachable):
•Una observación A es alcanzable desde otra observación B si existe una

secuencia de core points que van desde B a A.
Densamente conectadas (density conected):
•Dos observaciones A y B están densamente conectadas si existe una

observación core point C tal que A y B son alcanzables desde C.

minPts=4

A modo orientativo se pueden seguir las siguientes premisas:
 minPts: cuanto mayor sea el tamaño del set de datos, mayor debe
ser el valor mínimo de observaciones vecinas. En el libro Practical
Guide to Cluster Analysis in R recomiendan no bajar nunca de 3.
 epsilon: una buena forma de escoger el valor de ϵ es estudiar las

distancias promedio entre las k=minPts observaciones más
próximas.

Algoritmos
 DBSCAN: Density Based Spatial Clustering of

Applications with Noise (Ester et al., KDD’1996)
 OPTICS: Ordering Points To Identify the Clustering

Structure (Ankerst et al. SIGMOD’1999)
 DENCLUE: DENsity-based CLUstEring

(Hinneburg & Keim, KDD’1998)
 CLIQUE: Clustering in QUEst

(Agrawal et al., SIGMOD’1998)
 SNN (Shared Nearest Neighbor) density-based clustering

(Ertöz, Steinbach & Kumar, SDM’2003)
Clusters

DBSCAN … cuando funciona bien
Emanuel Yaselga Alvarado DBSCAN sensible al valor inicial de sus parámetros

Ventajas de DBSCAN Desventajas de DBSCAN
• No requiere que el usuario • No es un método totalmente

especifique el número determinístico: los border points que
de clusters. son alcanzables desde más de
• Es independiente de la forma un cluster pueden asignarse a uno u
que tengan los clusters, no otro dependiendo del orden en el
tienen por qué ser circulares. que se procesen los datos.
• Puede identificar outliers, por • No genera buenos resultados cuando
lo que los clusters generados la densidad de los grupos es muy
no se influenciados por ellos. distinta, ya que no es posible
encontrar los
parámetros ϵ y minPts que sirvan para
todos a la vez.

i j i j
4

SNN density-based clustering… O(n2)
Validación del clustering
Cada uno de los métodos de clustering da lugar a resultados

distintos.
La validación de clusters es el proceso por el cual se evalúa la

veracidad de los grupos obtenidos.
Estudio de la Estudio de la
tendencia calidad/significancia
de clustering, de los clusters
Elección del número

óptimo de clusters
Estudio de la tendencia de clustering
Assessing cluster tendecy
Evaluar si hay indicios de que realmente existe algún tipo de agrupación

en ellos.
Test estadísticos
(Hopkins statistic)
Forma visual
(Visual Assessment
of cluster
Tendency)


Test estadísticos (Hopkins statistic)
Permite evaluar la tendencia de clustering de un conjunto de datos mediante el

cálculo de la probabilidad de que dichos datos procedan de una distribución
uniforme

Forma visual (Visual Assessment of cluster Tendency)
VAT es método que permite evaluar visualmente si los datos muestran indicios
de algún tipo de agrupación. Se representa gráficamente la matriz de
distancias ordenada, empleando un gradiente de color para el valor de las
distancias. Si existen agrupaciones subyacentes en los datos se forma un
patrón de bloques cuadrados.

Número óptimo de clusters
 No existe una forma única de averiguar el número adecuado

de clusters.
 Es un proceso bastante subjetivo que depende en gran medida del tipo
de clustering empleado y de si se dispone de información previa sobre
los datos con los que se está trabajando
 Estrategias que ayudan en el proceso.
Average Gap statistic

Elbow method
silhouette method method

Elbow method
 El método Elbow calcula la varianza total intra-cluster en función del

número de clusters y escoge como óptimo aquel valor a partir del cual
añadir más clusters apenas consigue mejoría.

Average silhouette method
 Se maximiza la media de los silhouette coeficient o índices silueta (si).

 Este coeficiente cuantifica cómo de buena es la asignación que se ha
hecho de una observación comparando su similitud con el resto de
observaciones de su cluster frente a las de los otros clusters.
 Su valor puede estar entre -1 y 1, siendo valores altos un indicativo de
que la observación se ha asignado al cluster correcto.
 El valor de silhouette como:

Average silhouette method
ai: promedio de las distancias entre la observación i y el resto de

observaciones que pertenecen al mismo cluster. cuanto menor sea ai,
mejor ha sido la asignación de i a su cluster.
 bi: la menor de las distancias promedio entre ii y el resto de clusters,
es decir, la distancia al cluster más próximo (neighbouring cluster)

Gap statistic method
 El estadístico gap fue publicado por R.Tibshirani, G.Walther y T. Hastie.

 Este estadístico compara, para diferentes valores de k, la varianza
total intra-cluster observada frente al valor esperado acorde a una
distribución uniforme de referencia.
 Encuentra el valor de k con el que se consigue una estructura
de clusters lo más alejada posible de una distribución uniforme
aleatoria.


El algoritmo del gap statistic method es el siguiente:
 Hacer clustering de los datos para un rango de valores de k (k=1, …, K=n) y

calcular para cada uno el valor de la varianza total intra-cluster (Wk).
 Simular B sets de datos de referencia con una distribución aleatoria uniforme.
 Aplicar clustering a cada uno de los sets con el mismo rango de valores k
empleado en los datos originales, calculando en cada caso la varianza
total intra-cluster(Wkb).
 Calcular el estadístico gap para cada valor de k como la desviación de la
varianza observada Wk respecto del valor esperado acorde a la distribución de
referencia (Wkb).


 Identificar el número de clusters óptimo como el menor de los valores k para el
que el estadístico gap se aleja menos de una desviación estándar del
valor gap del siguiente k:

Calidad de los clusters
Una vez seleccionado el número adecuado de clusters y aplicado el algoritmo

de clustering pertinente se tiene que evaluar la calidad de los de los mismos,
de lo contrario, podrían derivarse conclusiones de agrupación que no se
corresponden con la realidad.
Validación interna de Validación externa de
los clusters: los clusters (ground truth):
• Emplean únicamente • Combinan los resultados
información interna del del clustering(unsupervised)
proceso de clustering para con información externa
evaluar la bondad de las (supervised), como puede ser
agrupaciones generadas. un set de validación en el que
se conoce el verdadero grupo
al que pertenece cada
observación.
La idea principal detrás del clustering es agrupar las observaciones de forma

que sean similares a aquellas que están dentro de un mismo cluster y distintas a
las de otros clusters,
Homogeneidad (también llamada compactness o cohesion) y la separación

entre clusters. sea lo mayor posible


Silhouette width
El valor de silhouette es:
 Su valor puede estar entre -1 y 1, siendo valores altos un indicativo de que la

observación se ha asignado al cluster correcto.
 Cuando su valor es próximo a cero significa que la observación se encuentra en
un punto intermedio entre dos clusters.
 Valores negativos apuntan a una posible asignación incorrecta de la
observación.


Silhouette width
El método permite evaluar el resultado del clustering a múltiples niveles:
• La calidad de asignación de cada observación por separado. Permitiendo

identificar potenciales asignaciones erróneas (valores negativos de silhouette).
• La calidad de cada cluster a partir del promedio de los índices silhouette de
todas las observaciones que lo forman.
• Si por ejemplo se han introducido demasiados clusters, es muy probable
que algunos de ellos tengan un valor promedio mucho menor que el resto.
• La calidad de la estructura de clusters en su conjunto a partir del promedio de
todos los índices silhouette.

Otros métodos
Grids multiresolución
 STING, a STatistical INformation Grid approach

(Wang, Yang & Muntz, VLDB’1997)
 WaveCluster, basado en wavelets

(Sheikholeslami, Chatterjee & Zhang, VLDB’1998)
 CLIQUE: CLustering In QUEst

(Agrawal et al., SIGMOD’1998)

Otros métodos
Clustering basado en modelos
Ajustar los datos a un modelo matemático

Se supone que los datos provienen de la superposición
de varias distribuciones de probabilidad.
Algoritmos
 Estadística:
EM [Expectation Maximization], AutoClass
 Clustering conceptual (Machine Learning):
COBWEB, CLASSIT
 Redes neuronales:
SOM [Self-Organizing Maps]
Bibliografía
 R. Agrawal, J. Gehrke, D. Gunopulos, and P. Raghavan. Automatic subspace clustering of high
dimensional data for data mining applications. SIGMOD'98
 M. Ankerst, M. Breunig, H.-P. Kriegel, and J. Sander. Optics: Ordering points to identify the clustering
structure, SIGMOD’99.
 L. Ertöz, M. Steinbach, and V. Kumar. Finding clusters of different sizes, shapes, and densities in noisy,
high-dimensional data, SDM’2003
 M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in
large spatial databases. KDD'96.
 D. Fisher. Knowledge acquisition via incremental conceptual clustering. Machine Learning, 2:139-
172, 1987.
 D. Gibson, J. Kleinberg, and P. Raghavan. Clustering categorical data: An approach based on

dynamic systems. VLDB’98
 S. Guha, R. Rastogi, and K. Shim. Cure: An efficient clustering algorithm for large databases.
SIGMOD'98.
 S. Guha, R. Rastogi, and K. Shim. ROCK: A robust clustering algorithm for categorical attributes. In
ICDE'99, Sydney, Australia, March 1999.

Bibliografía
 A. Hinneburg, D.l A. Keim: An Efficient Approach to Clustering in Large Multimedia Databases with Noise.
KDD’98.
 G. Karypis, E.-H. Han, and V. Kumar. CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic
Modeling. COMPUTER, 32(8): 68-75, 1999.
 L. Parsons, E. Haque and H. Liu, Subspace Clustering for High Dimensional Data: A Review , SIGKDD
Explorations, 6(1), June 2004
 G. Sheikholeslami, S. Chatterjee, and A. Zhang. WaveCluster: A multi-resolution clustering approach for very
large spatial databases. VLDB’98.
 A. K. H. Tung, J. Hou, and J. Han. Spatial Clustering in the Presence of Obstacles , ICDE'01
 H. Wang, W. Wang, J. Yang, and P.S. Yu. Clustering by pattern similarity in large data sets, SIGMOD’ 02.
 W. Wang, Yang, R. Muntz, STING: A Statistical Information grid Approach to Spatial Data Mining, VLDB’97.
 T. Zhang, R. Ramakrishnan, and M. Livny. BIRCH : an efficient data clustering method for very large
databases. SIGMOD'96.

Créditos
 Jiawei Han (University of Illinois at Urbana-Champaign): “Data Mining:
Concepts and Techniques”, capítulo 7, 2006
 Pang-Ning Tan (Michigan State University), Michael Steinbach & Vipin Kumar
(University of Minnesota): “Introduction to Data Mining”, capítulos 8 y 9, 2006

Clustering Ciencia Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clustering Ciencia Datos

Cargado por

Copyright:

Formatos disponibles

DATA MINING:

“Sinónimos” según el contexto…

 Aprendizaje no supervisado (IA)

Emanuel Yaselga Alvarado

Técnica de minería de datos (data mining) dentro de la disciplina de

Emanuel Yaselga Alvarado

Encontrar agrupamientos de tal forma que los objetos

Emanuel Yaselga Alvarado

El algoritmo de La medida de similitud

Emanuel Yaselga Alvarado

Análisis de clusters Distancias y

Emanuel Yaselga Alvarado

Aplicaciones típicas en Data Mining:

¡¡¡ El clustering es subjetivo !!!

Emanuel Yaselga Alvarado

Usualmente, se expresan en términos de distancias:

La definición de la métrica de similitud/distancia

En otras palabras, la similitud entre objetos es

Emanuel Yaselga Alvarado

 Distancia de Manhattan (r=1) / city block / taxicab

 Distancia euclídea (r=2):

 Distancia de Chebyshev (r) / dominio / chessboard

 También conocida como distancia de

 Considera las correlaciones

 No depende de la escala de medida.

 “Mutual Neighbor Distance”

donde NN(xi,xj) es el número de vecino

Emanuel Yaselga Alvarado

 Agrupamiento por particiones

 Métodos basados en densidad

Emanuel Yaselga Alvarado

Emanuel Yaselga Alvarado

Métodos basados en densidad

Emanuel Yaselga Alvarado

El clustering de partición entorno a centroides o medias realiza una

Emanuel Yaselga Alvarado

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

2.5 2.5 2.5

1.5 1.5 1.5

0.5 0.5 0.5

Iteration 4 Iteration 5 Iteration 6

2.5 2.5 2.5

1.5 1.5 1.5

0.5 0.5 0.5

Emanuel Yaselga Alvarado

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Emanuel Yaselga Alvarado

 GRASP [Greedy Randomized Adaptive Search Procedure]

 k-Modes (Huang’1998) utiliza modas en vez de medias

 k-Medoids utiliza medianas en vez de medias para

vg. PAM (Partitioning Around Medoids, 1987)

La técnica de clustering jerárquico construye un dendograma o

• Se comienza con tantos clústeres

• Se comienza con un único clúster

Emanuel Yaselga Alvarado

DENDROGRAMA: La similitud entre dos objetos viene

El DENDROGRAMA nos puede ayudar a determinar el

Emanuel Yaselga Alvarado El DENDROGRAMA

En lugar de establecer de antemano el número de

¿Cómo medir la distancia entre clusters?

Emanuel Yaselga Alvarado

¿Cómo medir la distancia entre clusters?

Emanuel Yaselga Alvarado