Está en la página 1de 42

HERRAMIENTAS DE

DATAMINING

Clustering

Mtodos de
agrupamiento

Objetivo
Agrupar objetos similares entre s que sean
distintos a los objetos de otros agrupamientos
[clusters].
Aprendizaje no supervisado
No existen clases predefinidas
Los resultados obtenidos dependern de:
El algoritmo de agrupamiento seleccionado.
El conjunto de datos disponible
La medida de similitud utilizada para
comparar objetos.

Mtodos de
agrupamiento
Encontrar agrupamientos de tal forma que los
objetos de un grupo sean similares entre s y
diferentes de los objetos de otros grupos:

Minimizar
distancia
intra-cluster

Maximizar
distancia
intercluster

Medidas de similitud
Usualmente, se expresan en trminos de
distancias:
d(i,j) > d(i,k)
nos indica que el objeto i es ms parecido a k que
aj

La definicin de la mtrica de similitud/distancia


ser distinta en funcin del tipo de dato y
de la interpretacin semntica que nosotros
hagamos.
En otras palabras, la similitud entre objetos es

Medidas de similitud

Cuntos
agrupamiento
s?

Seis?

Dos?

Cuatro?

Algoritmos de
agrupamiento
Con nmero de clases desconocido

Mtodo adaptativo
Algoritmo de mxima distancia (Batchelor &
Wilkins)

Con nmero de clases conocido

Algoritmo
Algoritmo
Algoritmo
Algoritmo

de las K Medias
GRASP
de agrupamiento secuencial
ISODATA

Mtodos basados en grafos

Algoritmo basado en la matriz de similitud

Algoritmo adaptativo
Funcionamiento

Inicializacin

Se forma un agrupamiento con el primer patrn


del conjunto de datos.
Mientras queden patrones por asignar

El patrn se asigna a un cluster si la distancia del


patrn al centroide del cluster no supera un
umbral .

En caso contrario, se crea un nuevo agrupamiento


si la distancia del patrn al cluster ms cercano
est por encima de .

Algoritmo adaptativo
Funcionamiento

Este algoritmo incluye una clase de rechazo:


Algunas observaciones no son clasificadas.

Algoritmo adaptativo
Ejemplo

Algoritmo adaptativo

Algoritmo adaptativo
Ejemplo

Algoritmo adaptativo
Caractersticas principales

Ventajas

til cuando no se conoce de antemano el nmero


de clases del problema (nmero de clusters
desconocido).

Simplicidad y eficiencia.
Desventajas

Dependencia del orden de presentacin


(comportamiento sesgado por el orden de
presentacin de los patrones).

Presupone agrupamientos compactos separados


claramente de los dems (puede no funcionar
adecuadamente en presencia de ruido).

Batchelor & Wilkins


Funcionamiento

Primer agrupamiento:
Patrn escogido al azar.
Segundo agrupamiento:
Patrn ms alejado del primer agrupamiento .
Mientras se creen nuevos agrupamientos, obtener
el patrn ms alejado de los agrupamientos
existentes (mximo de las distancias mnimas de
los patrones a los agrupamientos). Si la distancia
del patrn escogido al conjunto de agrupamientos
es mayor que una fraccin f de la distancia media
entre los agrupamientos, crear un agrupamiento
con el patrn seleccionado.
Asignar cada patrn a su agrupamiento ms
cercano.

Batchelor & Wilkins


Ejemplo (f=0.5)

Batchelor & Wilkins


Ejemplo (f=0.5)

Batchelor & Wilkins


Ejemplo (f=0.5)

Batchelor & Wilkins


Ejemplo (f=0.5)

Batchelor & Wilkins


Ejemplo (f=0.5)

Batchelor & Wilkins


Caractersticas principales

Ventajas

til cuando no se conoce de antemano el nmero


de clases del problema (nmero de clusters
desconocido).

Un nico parmetro.
Desventajas

Sensibilidad al valor del parmetro.

k-Means
Funcionamiento

Cada cluster tiene asociado un centroide


(centro geomtrico del cluster).
Los puntos se asignan al cluster cuyo centroide
est ms cerca (utilizando cualquier mtrica de
distancia).
Iterativamente, se van actualizando los centroides
en funcin de las asignaciones de puntos a
clusters, hasta que los centroides dejen de
cambiar.

BASE TERICA: Algoritmo basado en la minimizacin


de la distancia interna (suma de las distancias de
los patrones asignados a un agrupamiento a su
centroide). En realidad, se minimiza la suma de las

k-Means
Iteration 6

3
2.5
2

1.5
1
0.5
0

-2

-1.5

-1

-0.5

0.5

1.5

k-Means
Iteration 1

Iteration 2

1.5

1.5

1.5

2.5

2.5

2.5

0.5

0.5

0.5

-2

-1.5

-1

-0.5

0.5

1.5

-2

Iteration 4

-1.5

-1

-0.5

0.5

1.5

-2

Iteration 5

1.5

1.5

1.5

0.5

0.5

0.5

-1

-0.5

0.5

1.5

-1

-0.5

0.5

1.5

1.5

Iteration 6

2.5

2.5

-1.5

-1.5

2.5

-2

Iteration 3

-2

-1.5

-1

-0.5

0.5

1.5

-2

-1.5

-1

-0.5

0.5

k-Means
Iteration 5
1
2
3
4

3
2.5
2

1.5
1
0.5
0

-2

-1.5

-1

-0.5

0.5

1.5

k-Means
Iteration 1

1.5

1.5

2.5

2.5

0.5

0.5

-2

-1.5

-1

-0.5

0.5

Iteration 3

Iteration 2

1.5

-2

-1.5

-1

Iteration 4

-0.5

1.5

1.5

1.5

0.5

0.5

0.5

-1

-0.5

0.5

1.5

1.5

Iteration 5

2.5

2.5

-1.5

0.5

2.5

-2

-2

-1.5

-1

-0.5

0.5

1.5

-2

-1.5

-1

-0.5

0.5

1.5

k-Means
3
2.5

Puntos originales

1.5
1
0.5
0

-2

-1.5

-1

-0.5

0.5

1.5

2.5

2.5

1.5

1.5

0.5

0.5

-2

-1.5

-1

-0.5

0.5

Solucin ptima

1.5

-2

-1.5

-1

-0.5

ptimo local

0.5

1.5

k-Means
Clusters de
distinto tamao

Clusters de
distinta densidad

Clusters
no convexos
26

k-Means
Variantes

GRASP [Greedy Randomized Adaptive Search


Procedure] para evitar ptimos locales.
k-Modes (Huang1998) utiliza modas en vez de
medias (para poder trabajar con atributos de tipo
categrico).
k-Medoids utiliza medianas en vez de medias
para limitar la influencia de los outliers
vg. PAM (Partitioning Around Medoids, 1987)
CLARA (Clustering LARge Applications, 1990)
CLARANS (CLARA + Randomized Search,

k-Means
Caractersticas principales
El mtodo de las K Medias (MacQueen, 1967)

Ventajas

Sencillo y eficiente.

Un nico parmetro.
Desventajas

Sesgado por el orden de presentacin de los


patrones
(el resultado depende de la configuracin inicial
de los agrupamientos).

Necesidad de conocer el nmero de clusters


k:
Su comportamiento depende enormemente del

GRASP
Funcionamiento

Se repite el siguiente proceso


un nmero determinado de iteraciones
Se busca una posible solucin (centroides
escogidos aleatoriamente de entre aquellos
patrones que estn ms lejos de los centroides
ya escogidos).
Se aplica una tcnica de optimizacin local (kMeans) para obtener un conjunto de
agrupamientos.
Opcionalmente, se puede alterar
aleatoriamente el resultado obtenido
[mutacin] y repetir la bsqueda de un ptimo
local con la solucin mutada.
De todas las soluciones obtenidas, nos quedamos

GRASP
Caractersticas principales
Greedy Randomized Adaptive Search Procedure

Ventajas

Sencillo y eficiente.

Evita caer en ptimos locales.


Desventajas

Necesidad de conocer el nmero de clusters


k:
Su comportamiento depende enormemente del
valor elegido para el parmetro k.

Algoritmo secuencial
Funcionamiento

Similar al K-Means, si bien introduce algunas


novedades

El parmetro K se considera un valor mximo


(puede devolver un nmero de agrupamientos
menor).
Partiendo de un nico agrupamiento, se van
creando nuevos agrupamientos conforme se
procesan nuevos patrones secuencialmente
(algoritmo incremental).
Los patrones se procesan secuencialmente por
lotes. Al final de cada lote, se evalan los

Algoritmo secuencial
Funcionamiento: Creacin de agrupamientos

Se selecciona arbitrariamente el centro del primer


agrupamiento.
Posteriormente, se procesan secuencialmente los
dems patrones:
Se calcula la distancia del patrn actual al
agrupamiento ms cercano (a su centroide).
Si sta es menor o igual a R se asigna el patrn
a su agrupamiento ms cercano.
En caso contrario, se crea un nuevo
agrupamiento con el patrn actual.

Algoritmo secuencial
Funcionamiento: Mezcla de agrupamientos

Cada M patrones, se mezclan agrupamientos


1. Mezcla por cercana (se mezclan dos
agrupamientos si la distancia entre ellos es
menor que C).
2. Mezcla por tamao: Si, tras la mezcla por
cercana, quedan ms agrupamientos que los
deseados por el usuario (K), se mezclan los
agrupamientos de menos del T% de M miembros
con sus clusters ms cercanos.
3. Mezcla forzada: Si an quedan demasiados
agrupamientos, se mezclan los agrupamientos
ms cercanos hasta obtener el nmero deseado
K.
El proceso de mezcla nos asegura que al final obtenemos el

Algoritmo secuencial
Caractersticas principales

Ventajas

Flexibilidad: Su comportamiento puede ajustarse


gracias a su amplio conjunto de parmetros.

Eficiencia: Clculos muy sencillos, basta con


recorrer una vez el conjunto de datos.
Desventajas

Utilizacin: Los valores adecuados para los


parmetros son difciles de establecer a priori, por
lo que se suele emplear un proceso de prueba y
error.

Sesgado por los primeros patrones: Los


resultados obtenidos dependen del orden de

Algoritmo ISODATA
Funcionamiento

Similar al K-Means,
si bien incorpora heursticas con tres objetivos:

Eliminar agrupamientos poco numerosos.

Mezclar agrupamientos cercanos.

Dividir agrupamientos dispersos.

Algoritmo ISODATA
Funcionamiento

Inicialmente se seleccionan los centros de A


agrupamientos.
En cada iteracin

Se asigna cada patrn al cluster ms cercano.

Se eliminan los agrupamientos de menos de N


patrones.

Si el nmero de agrupamientos es pequeo (


K/2), se dividen los agrupamientos ms dispersos.

En las iteraciones pares o cuando el nmero de


agrupamientos es elevado (>2K), mezclamos un
mximo de L pares de agrupamientos cercanos.

Algoritmo ISODATA
Caractersticas principales
Iterative Self-Organizing Data Analysis Techniques

Ventajas

Flexibilidad: Su comportamiento puede ajustarse


gracias a su amplio conjunto de parmetros.

No est sesgado por el orden de presentacin de


los patrones.
Desventajas

Utilizacin: Los valores adecuados para los


parmetros son difciles de establecer a priori, por
lo que se suele emplear un proceso de prueba y
error.

Mtodos basados en
grafos
Matriz de similitud

Matriz cuadrada que representa la similitud


entre cualquier pareja de patrones.
Dado un umbral de distancia,
S =0 si d(X ,X ) > umbral
ij
i
j

Sij=1 si d(Xi,Xj) umbral

Agrupamiento basado en la matriz de similitud:

Se selecciona la fila i que contenga ms unos.

Se crea un agrupamiento con los patrones j tales que


Sij=1

Se aaden al agrupamiento todos aquellos patrones


k
tales que Sjk= 1, donde j es un patrn ya incluido en

Mtodos basados en
grafos
2
3
4
5
6
7
8
9

Mtodos basados en
grafos
Matriz de similitud: Variacin del umbral

40

Mtodos basados en
grafos
Caractersticas principales

p.ej. Agrupamiento basado en la matriz de similitud


Ventajas

A diferencia de los mtodos heursticos,


no dependen del orden en que se presentan los
patrones.

Desventajas

Su coste computacional los hace inviables


en muchas ocasiones.

También podría gustarte