Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DATAMINING
Clustering
Mtodos de
agrupamiento
Objetivo
Agrupar objetos similares entre s que sean
distintos a los objetos de otros agrupamientos
[clusters].
Aprendizaje no supervisado
No existen clases predefinidas
Los resultados obtenidos dependern de:
El algoritmo de agrupamiento seleccionado.
El conjunto de datos disponible
La medida de similitud utilizada para
comparar objetos.
Mtodos de
agrupamiento
Encontrar agrupamientos de tal forma que los
objetos de un grupo sean similares entre s y
diferentes de los objetos de otros grupos:
Minimizar
distancia
intra-cluster
Maximizar
distancia
intercluster
Medidas de similitud
Usualmente, se expresan en trminos de
distancias:
d(i,j) > d(i,k)
nos indica que el objeto i es ms parecido a k que
aj
Medidas de similitud
Cuntos
agrupamiento
s?
Seis?
Dos?
Cuatro?
Algoritmos de
agrupamiento
Con nmero de clases desconocido
Mtodo adaptativo
Algoritmo de mxima distancia (Batchelor &
Wilkins)
Algoritmo
Algoritmo
Algoritmo
Algoritmo
de las K Medias
GRASP
de agrupamiento secuencial
ISODATA
Algoritmo adaptativo
Funcionamiento
Inicializacin
Algoritmo adaptativo
Funcionamiento
Algoritmo adaptativo
Ejemplo
Algoritmo adaptativo
Algoritmo adaptativo
Ejemplo
Algoritmo adaptativo
Caractersticas principales
Ventajas
Simplicidad y eficiencia.
Desventajas
Primer agrupamiento:
Patrn escogido al azar.
Segundo agrupamiento:
Patrn ms alejado del primer agrupamiento .
Mientras se creen nuevos agrupamientos, obtener
el patrn ms alejado de los agrupamientos
existentes (mximo de las distancias mnimas de
los patrones a los agrupamientos). Si la distancia
del patrn escogido al conjunto de agrupamientos
es mayor que una fraccin f de la distancia media
entre los agrupamientos, crear un agrupamiento
con el patrn seleccionado.
Asignar cada patrn a su agrupamiento ms
cercano.
Ventajas
Un nico parmetro.
Desventajas
k-Means
Funcionamiento
k-Means
Iteration 6
3
2.5
2
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0.5
1.5
k-Means
Iteration 1
Iteration 2
1.5
1.5
1.5
2.5
2.5
2.5
0.5
0.5
0.5
-2
-1.5
-1
-0.5
0.5
1.5
-2
Iteration 4
-1.5
-1
-0.5
0.5
1.5
-2
Iteration 5
1.5
1.5
1.5
0.5
0.5
0.5
-1
-0.5
0.5
1.5
-1
-0.5
0.5
1.5
1.5
Iteration 6
2.5
2.5
-1.5
-1.5
2.5
-2
Iteration 3
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-1
-0.5
0.5
k-Means
Iteration 5
1
2
3
4
3
2.5
2
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0.5
1.5
k-Means
Iteration 1
1.5
1.5
2.5
2.5
0.5
0.5
-2
-1.5
-1
-0.5
0.5
Iteration 3
Iteration 2
1.5
-2
-1.5
-1
Iteration 4
-0.5
1.5
1.5
1.5
0.5
0.5
0.5
-1
-0.5
0.5
1.5
1.5
Iteration 5
2.5
2.5
-1.5
0.5
2.5
-2
-2
-1.5
-1
-0.5
0.5
1.5
-2
-1.5
-1
-0.5
0.5
1.5
k-Means
3
2.5
Puntos originales
1.5
1
0.5
0
-2
-1.5
-1
-0.5
0.5
1.5
2.5
2.5
1.5
1.5
0.5
0.5
-2
-1.5
-1
-0.5
0.5
Solucin ptima
1.5
-2
-1.5
-1
-0.5
ptimo local
0.5
1.5
k-Means
Clusters de
distinto tamao
Clusters de
distinta densidad
Clusters
no convexos
26
k-Means
Variantes
k-Means
Caractersticas principales
El mtodo de las K Medias (MacQueen, 1967)
Ventajas
Sencillo y eficiente.
Un nico parmetro.
Desventajas
GRASP
Funcionamiento
GRASP
Caractersticas principales
Greedy Randomized Adaptive Search Procedure
Ventajas
Sencillo y eficiente.
Algoritmo secuencial
Funcionamiento
Algoritmo secuencial
Funcionamiento: Creacin de agrupamientos
Algoritmo secuencial
Funcionamiento: Mezcla de agrupamientos
Algoritmo secuencial
Caractersticas principales
Ventajas
Algoritmo ISODATA
Funcionamiento
Similar al K-Means,
si bien incorpora heursticas con tres objetivos:
Algoritmo ISODATA
Funcionamiento
Algoritmo ISODATA
Caractersticas principales
Iterative Self-Organizing Data Analysis Techniques
Ventajas
Mtodos basados en
grafos
Matriz de similitud
Mtodos basados en
grafos
2
3
4
5
6
7
8
9
Mtodos basados en
grafos
Matriz de similitud: Variacin del umbral
40
Mtodos basados en
grafos
Caractersticas principales
Desventajas