Clustering Dia 5

HERRAMIENTAS DE
DATAMINING
Clustering
Mtodos de
agrupamiento
Objetivo
Agrupar objetos similares entre s que sean
distintos a los objetos de otros agrupamientos
[clusters].
Aprendizaje no supervisado
No existen clases predefinidas
Los resultados obtenidos dependern de:
El algoritmo de agrupamiento seleccionado.
El conjunto de datos disponible
La medida de similitud utilizada para
comparar objetos.
Mtodos de
agrupamiento
Encontrar agrupamientos de tal forma que los
objetos de un grupo sean similares entre s y
diferentes de los objetos de otros grupos:
Minimizar
distancia
intra-cluster
Maximizar
distancia
intercluster
Medidas de similitud
Usualmente, se expresan en trminos de
distancias:
d(i,j) > d(i,k)
nos indica que el objeto i es ms parecido a k que
aj
La definicin de la mtrica de similitud/distancia

ser distinta en funcin del tipo de dato y
de la interpretacin semntica que nosotros
hagamos.
En otras palabras, la similitud entre objetos es
Medidas de similitud
Cuntos
agrupamiento
s?
Seis?
Dos?
Cuatro?
Algoritmos de
agrupamiento
Con nmero de clases desconocido
Mtodo adaptativo
Algoritmo de mxima distancia (Batchelor &
Wilkins)
Con nmero de clases conocido
Algoritmo
Algoritmo
Algoritmo
Algoritmo
de las K Medias
GRASP
de agrupamiento secuencial
ISODATA
Mtodos basados en grafos
Algoritmo basado en la matriz de similitud
Algoritmo adaptativo
Funcionamiento
Inicializacin
Se forma un agrupamiento con el primer patrn

del conjunto de datos.
Mientras queden patrones por asignar
El patrn se asigna a un cluster si la distancia del

patrn al centroide del cluster no supera un
umbral .
En caso contrario, se crea un nuevo agrupamiento

si la distancia del patrn al cluster ms cercano
est por encima de .
Funcionamiento
Este algoritmo incluye una clase de rechazo:

Algunas observaciones no son clasificadas.
Ejemplo
Ejemplo
Caractersticas principales
Ventajas
til cuando no se conoce de antemano el nmero

de clases del problema (nmero de clusters
desconocido).
Simplicidad y eficiencia.
Desventajas
Dependencia del orden de presentacin

(comportamiento sesgado por el orden de
presentacin de los patrones).
Presupone agrupamientos compactos separados

claramente de los dems (puede no funcionar
adecuadamente en presencia de ruido).
Batchelor & Wilkins

Funcionamiento
Primer agrupamiento:
Patrn escogido al azar.
Segundo agrupamiento:
Patrn ms alejado del primer agrupamiento .
Mientras se creen nuevos agrupamientos, obtener
el patrn ms alejado de los agrupamientos
existentes (mximo de las distancias mnimas de
los patrones a los agrupamientos). Si la distancia
del patrn escogido al conjunto de agrupamientos
es mayor que una fraccin f de la distancia media
entre los agrupamientos, crear un agrupamiento
con el patrn seleccionado.
Asignar cada patrn a su agrupamiento ms
cercano.
Batchelor & Wilkins

Ejemplo (f=0.5)
Batchelor & Wilkins

Ejemplo (f=0.5)
Batchelor & Wilkins

Ejemplo (f=0.5)
Batchelor & Wilkins

Ejemplo (f=0.5)
Batchelor & Wilkins

Ejemplo (f=0.5)
Batchelor & Wilkins

Ventajas
til cuando no se conoce de antemano el nmero

de clases del problema (nmero de clusters
desconocido).
Un nico parmetro.
Desventajas
Sensibilidad al valor del parmetro.
k-Means
Funcionamiento
Cada cluster tiene asociado un centroide

(centro geomtrico del cluster).
Los puntos se asignan al cluster cuyo centroide
est ms cerca (utilizando cualquier mtrica de
distancia).
Iterativamente, se van actualizando los centroides
en funcin de las asignaciones de puntos a
clusters, hasta que los centroides dejen de
cambiar.
BASE TERICA: Algoritmo basado en la minimizacin

de la distancia interna (suma de las distancias de
los patrones asignados a un agrupamiento a su
centroide). En realidad, se minimiza la suma de las
k-Means
Iteration 6
3
2.5
2
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0.5
1.5
k-Means
Iteration 1
Iteration 2
1.5
1.5
1.5
2.5
2.5
2.5
0.5
0.5
0.5
-2
-1.5
-1
-0.5
0.5
1.5
-2
Iteration 4
-1.5
-1
-0.5
0.5
1.5
-2
Iteration 5
1.5
1.5
1.5
0.5
0.5
0.5
-1
-0.5
0.5
1.5
-1
-0.5
0.5
1.5
1.5
Iteration 6
2.5
2.5
-1.5
-1.5
2.5
-2
Iteration 3
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-1
-0.5
0.5
k-Means
Iteration 5
1
2
3
4
3
2.5
2
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0.5
1.5
k-Means
Iteration 1
1.5
1.5
2.5
2.5
0.5
0.5
-2
-1.5
-1
-0.5
0.5
Iteration 3
Iteration 2
1.5
-2
-1.5
-1
Iteration 4
-0.5
1.5
1.5
1.5
0.5
0.5
0.5
-1
-0.5
0.5
1.5
1.5
Iteration 5
2.5
2.5
-1.5
0.5
2.5
-2
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-1
-0.5
0.5
1.5
k-Means
3
2.5
Puntos originales
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0.5
1.5
2.5
2.5
1.5
1.5
0.5
0.5
-2
-1.5
-1
-0.5
0.5
Solucin ptima
1.5
-2
-1.5
-1
-0.5
ptimo local
0.5
1.5
k-Means
Clusters de
distinto tamao
Clusters de
distinta densidad
Clusters
no convexos
26
k-Means
Variantes
GRASP [Greedy Randomized Adaptive Search

Procedure] para evitar ptimos locales.
k-Modes (Huang1998) utiliza modas en vez de
medias (para poder trabajar con atributos de tipo
categrico).
k-Medoids utiliza medianas en vez de medias
para limitar la influencia de los outliers
vg. PAM (Partitioning Around Medoids, 1987)
CLARA (Clustering LARge Applications, 1990)
CLARANS (CLARA + Randomized Search,
k-Means
El mtodo de las K Medias (MacQueen, 1967)
Ventajas
Sencillo y eficiente.
Un nico parmetro.
Desventajas
Sesgado por el orden de presentacin de los

patrones
(el resultado depende de la configuracin inicial
de los agrupamientos).
Necesidad de conocer el nmero de clusters

k:
Su comportamiento depende enormemente del
GRASP
Funcionamiento
Se repite el siguiente proceso

un nmero determinado de iteraciones
Se busca una posible solucin (centroides
escogidos aleatoriamente de entre aquellos
patrones que estn ms lejos de los centroides
ya escogidos).
Se aplica una tcnica de optimizacin local (kMeans) para obtener un conjunto de
agrupamientos.
Opcionalmente, se puede alterar
aleatoriamente el resultado obtenido
[mutacin] y repetir la bsqueda de un ptimo
local con la solucin mutada.
De todas las soluciones obtenidas, nos quedamos
GRASP
Greedy Randomized Adaptive Search Procedure
Ventajas
Sencillo y eficiente.
Evita caer en ptimos locales.

Desventajas
Necesidad de conocer el nmero de clusters

k:
Su comportamiento depende enormemente del
valor elegido para el parmetro k.
Algoritmo secuencial
Funcionamiento
Similar al K-Means, si bien introduce algunas

novedades
El parmetro K se considera un valor mximo

(puede devolver un nmero de agrupamientos
menor).
Partiendo de un nico agrupamiento, se van
creando nuevos agrupamientos conforme se
procesan nuevos patrones secuencialmente
(algoritmo incremental).
Los patrones se procesan secuencialmente por
lotes. Al final de cada lote, se evalan los
Funcionamiento: Creacin de agrupamientos
Se selecciona arbitrariamente el centro del primer

agrupamiento.
Posteriormente, se procesan secuencialmente los
dems patrones:
Se calcula la distancia del patrn actual al
agrupamiento ms cercano (a su centroide).
Si sta es menor o igual a R se asigna el patrn
a su agrupamiento ms cercano.
En caso contrario, se crea un nuevo
agrupamiento con el patrn actual.
Funcionamiento: Mezcla de agrupamientos
Cada M patrones, se mezclan agrupamientos

1. Mezcla por cercana (se mezclan dos
agrupamientos si la distancia entre ellos es
menor que C).
2. Mezcla por tamao: Si, tras la mezcla por
cercana, quedan ms agrupamientos que los
deseados por el usuario (K), se mezclan los
agrupamientos de menos del T% de M miembros
con sus clusters ms cercanos.
3. Mezcla forzada: Si an quedan demasiados
agrupamientos, se mezclan los agrupamientos
ms cercanos hasta obtener el nmero deseado
K.
El proceso de mezcla nos asegura que al final obtenemos el
Ventajas
Flexibilidad: Su comportamiento puede ajustarse

gracias a su amplio conjunto de parmetros.
Eficiencia: Clculos muy sencillos, basta con

recorrer una vez el conjunto de datos.
Desventajas
Utilizacin: Los valores adecuados para los

parmetros son difciles de establecer a priori, por
lo que se suele emplear un proceso de prueba y
error.
Sesgado por los primeros patrones: Los

resultados obtenidos dependen del orden de
Algoritmo ISODATA
Funcionamiento
Similar al K-Means,
si bien incorpora heursticas con tres objetivos:
Eliminar agrupamientos poco numerosos.
Mezclar agrupamientos cercanos.
Dividir agrupamientos dispersos.
Algoritmo ISODATA
Funcionamiento
Inicialmente se seleccionan los centros de A

agrupamientos.
En cada iteracin
Se asigna cada patrn al cluster ms cercano.
Se eliminan los agrupamientos de menos de N

patrones.
Si el nmero de agrupamientos es pequeo (

K/2), se dividen los agrupamientos ms dispersos.
En las iteraciones pares o cuando el nmero de

agrupamientos es elevado (>2K), mezclamos un
mximo de L pares de agrupamientos cercanos.
Algoritmo ISODATA
Iterative Self-Organizing Data Analysis Techniques
Ventajas
Flexibilidad: Su comportamiento puede ajustarse

gracias a su amplio conjunto de parmetros.
No est sesgado por el orden de presentacin de

los patrones.
Desventajas
Utilizacin: Los valores adecuados para los

parmetros son difciles de establecer a priori, por
lo que se suele emplear un proceso de prueba y
error.
Mtodos basados en
grafos
Matriz de similitud
Matriz cuadrada que representa la similitud

entre cualquier pareja de patrones.
Dado un umbral de distancia,
S =0 si d(X ,X ) > umbral
ij
i
j
Sij=1 si d(Xi,Xj) umbral
Agrupamiento basado en la matriz de similitud:
Se selecciona la fila i que contenga ms unos.
Se crea un agrupamiento con los patrones j tales que

Sij=1
Se aaden al agrupamiento todos aquellos patrones

k
tales que Sjk= 1, donde j es un patrn ya incluido en
Mtodos basados en
grafos
2
3
4
5
6
7
8
9
Mtodos basados en
grafos
Matriz de similitud: Variacin del umbral
40
Mtodos basados en
grafos
p.ej. Agrupamiento basado en la matriz de similitud

Ventajas
A diferencia de los mtodos heursticos,

no dependen del orden en que se presentan los
patrones.
Desventajas
Su coste computacional los hace inviables

en muchas ocasiones.

Clustering Dia 5

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clustering Dia 5

Cargado por

Copyright:

Formatos disponibles

HERRAMIENTAS DE

La definicin de la mtrica de similitud/distancia

Con nmero de clases conocido

Mtodos basados en grafos

Algoritmo basado en la matriz de similitud

Se forma un agrupamiento con el primer patrn

El patrn se asigna a un cluster si la distancia del

En caso contrario, se crea un nuevo agrupamiento

Este algoritmo incluye una clase de rechazo:

til cuando no se conoce de antemano el nmero

Dependencia del orden de presentacin

Presupone agrupamientos compactos separados

Batchelor & Wilkins

Batchelor & Wilkins

Batchelor & Wilkins

Batchelor & Wilkins

Batchelor & Wilkins

Batchelor & Wilkins

Batchelor & Wilkins

til cuando no se conoce de antemano el nmero

Sensibilidad al valor del parmetro.

Cada cluster tiene asociado un centroide

BASE TERICA: Algoritmo basado en la minimizacin

GRASP [Greedy Randomized Adaptive Search

Sesgado por el orden de presentacin de los

Necesidad de conocer el nmero de clusters

Se repite el siguiente proceso

Evita caer en ptimos locales.

Necesidad de conocer el nmero de clusters

Similar al K-Means, si bien introduce algunas

El parmetro K se considera un valor mximo

Se selecciona arbitrariamente el centro del primer

Cada M patrones, se mezclan agrupamientos

Flexibilidad: Su comportamiento puede ajustarse

Eficiencia: Clculos muy sencillos, basta con

Utilizacin: Los valores adecuados para los

Sesgado por los primeros patrones: Los

Eliminar agrupamientos poco numerosos.

Mezclar agrupamientos cercanos.

Dividir agrupamientos dispersos.

Inicialmente se seleccionan los centros de A

Se asigna cada patrn al cluster ms cercano.

Se eliminan los agrupamientos de menos de N

Si el nmero de agrupamientos es pequeo (

En las iteraciones pares o cuando el nmero de

Flexibilidad: Su comportamiento puede ajustarse

No est sesgado por el orden de presentacin de

Utilizacin: Los valores adecuados para los

Matriz cuadrada que representa la similitud

Sij=1 si d(Xi,Xj) umbral

Agrupamiento basado en la matriz de similitud:

Se selecciona la fila i que contenga ms unos.

Se crea un agrupamiento con los patrones j tales que

Se aaden al agrupamiento todos aquellos patrones

p.ej. Agrupamiento basado en la matriz de similitud

A diferencia de los mtodos heursticos,

Su coste computacional los hace inviables

También podría gustarte