Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sesion11 Agrupacion PDF
Sesion11 Agrupacion PDF
Minería de Datos
Diplomado
Por
Elizabeth León Guzmán, Ph.D.
Profesora
Ingeniería de Sistemas
Grupo de Investigación MIDAS
2
Minería de Datos - Agrupamiento
Agrupamiento
• Las clases (grupos con significado) indican como
las personas analizan y describen el mundo
5
Minería de Datos - Agrupamiento
Diferentes formas de agrupar el mismo conjunto de datos
Puntos originales
Dos clusters
Cuatro clusters
Seis clusters
6
Minería de Datos - Agrupamiento
Agrupamiento
• Sistema visual del humano (espacio
Euclideano)
• La arbitrariedad en el número de clusters es el
mayor problema en clustering.
• Grupos tienen diferentes formas, tamaños en un
espacio n-dimensional
• Definición de cluster es impreciso y la mejor
definición depende de la naturaleza de los datos
y de los resultados deseados
• Clasificación NO supervisada (contraste con
clasificación)
7
Minería de Datos - Agrupamiento
Medidas de similaridad/distancia
• La medida de similaridad es fundamental en la
definición del cluster
8
Minería de Datos - Agrupamiento
Similitud y Disimilitud
Similitud
Medida numérica de semejanza entre objetos
Valor alto para objetos parecidos
A menudo definida en el intervalo [0,1]
Disimilitud
Medida numérica de diferencia entre objetos
Valor bajo para objetos parecidos
Varia entre [0, ∞)
Usualmente es una distancia
Proximidad
Se refiere a similitud o disimilitud
9
Minería de Datos - Agrupamiento
Similitud y Disimilitud para atributos simples
10
Minería de Datos - Agrupamiento
Distancia Euclideana
n
2
dist= ∑ p k −q k
k= 1
Se realiza normalización si las escalas de los
atributos difieren.
11
Minería de Datos - Agrupamiento
Distancia Euclideana
12
Minería de Datos - Agrupamiento
Distancia Minskowski
Generalización de la distancia Euclidiana mediante el
parámetro r
n 1
∑
dist= ∣ p k −q k∣ r r
k=1
r = 1. Distancia Manhattan
Ejemplo típico: Distancia de Hamming: Numero de bits
diferentes entre dos arreglos de bits
r = 2. Distancia Euclidiana
r → ∞. Distancia “supremo” (norma Lmax o L∞).
La máxima diferencia entre los atributos
13
Minería de Datos - Agrupamiento
Distancia Minskowski
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
point x y
p1 0 2 point x y
p2 2 0 p1 0 2
p3 3 1 p2 2 0
p4 5 1 p3 3 1
p4 5 1
point x y
p1 0 2
p2 2 0
p3 3 1
p4 5 1
14
Minería de Datos - Agrupamiento
Distancia Hamming: Número de
bits que son diferentes entre dos
objetos.
D h x,y =b+c
15
Minería de Datos - Agrupamiento
Distancia Mahalanobis
T
mahalanobis p,q = p−q ∑ p−q
Σ es la matriz de covarianza
del conjunto X
n
1
Σ j,k = ∑ X − X j X ik − X k
n−1 i= 1 ij
C
Σ= [
0 .3 0 .2
0 .2 0 .3 ]
B A: (0.5, 0.5)
B: (0, 1)
A C: (1.5, 1.5)
Mahal(A,B) = 5
Mahal(A,C) = 4
17
Minería de Datos - Agrupamiento
Medidas de distancia
Propiedades de Medidas de distancia
1. Positiva
d(x,y)>=0
d(x,y)=0 solo si x=y
1. Simétrica
d(x,y) = d(y,x) para todo x y y
1. Desigualdad Triangular
d(x,z) <= d(x,y)+d(y,z) para todo punto x,y y z
p1 p2 p3 p4
P1 0.0 2.8 3.2 5.1
p1 z P2 2.8 0.0 1.4 3.2
2
p3 p4
P3 3.2 1.4 0.0 2.0
1
p4 5.1 3.2 2.0 0.0
p2
euclidean
1 2 3 4 5
Medidas de Similaridad
x
Distancias/similaridades binarias
De ayuda construir tabla de contingencia 1 0
0 c d
a+d
S smc x,y =
a+b+c+d
Coeficiente de Jaccard a
S jc x,y =
a+b+c
Coeficiente de Rao a
S rc x,y =
a+b+c+d
SMC vs Jaccard: Ejemplo
p= 1000000000
q= 0000001001
20
Minería de Datos - Agrupamiento
Medidas de Similaridad
Similaridad de Coseno
Los objetos se consideran vectores su similaridad se mide por el ángulo
que los separa usando el coseno
m
x ∑ xi . yi
i= 1
θ S cos x,y =
m m
y
∑ i ∑ i
x 2
. y 2
i=1 i=1
Medida del ángulo entre x y y
Si la similaridad es 1 el ángulo es 0 grados, x y y son
el mismo excepto por magnitud
Si la similaridad es 0 el ángulo es 90 grados
d1 • d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5
||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0) 0.5 = (42) 0.5 = 6.481
||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245
25
Minería de Datos - Agrupamiento
Distinciones entre
los conjuntos de Clusters
frontera.
Difuso vs. no - difuso
En el agrupamiento difuso, un punto pertenece
a todo cluster con algún peso entre 0 y 1.
Los pesos deben sumar 1.
26
Minería de Datos - Agrupamiento
Tipos de Clusters
27
Minería de Datos - Agrupamiento
Bien Separados
Un cluster es un conjunto de puntos en el que
cualquier punto en el cluster es más cercano a
cualquier otro punto en el cluster que cualquier otro
punto que no esté en el cluster
28
Minería de Datos - Agrupamiento
Basados en el centro
Un cluster es un conjunto de objetos en el que
un objeto está más cerca al centro del cluster,
que al centro de otro cluster.
El centro de un cluster frecuentemente es llamado
centroide, el promedio de todos los puntos en el cluster o el
“medoid”, el punto más representativo del cluster.
29
Minería de Datos - Agrupamiento
Contiguos
Un cluster es un conjunto de puntos donde un
punto en el cluster está más próximo a otro punto o
puntos en el cluster que a cualquier otro punto que
no pertenezca al cluster
30
Minería de Datos - Agrupamiento
Basados en densidad
Un cluster es una región densa de puntos,
separados por regiones de baja densidad, de otras
regiones de alta densidad.
Se usan cuando los clusters son irregulares o
31
Minería de Datos - Agrupamiento
Conceptuales
32
Minería de Datos - Agrupamiento
Definidos por una función objetivo
33
Minería de Datos - Agrupamiento
Tipos de Agrupamiento
Agrupamiento Particional
Dividir los datos (puntos, objetos, registros) en grupos no
superpuestos, donde cada dato (punto, objeto, registro)
pertenece a un único grupo.
Agrupamiento Jerárquico
Organiza los datos (puntos, objetos, registros) en grupos
sobrepuestos en forma de árbol. Usa estructura de
árbol o dendograma
34
Minería de Datos - Agrupamiento
Agrupamiento Particional
Minimizar la distancia en cada uno de los grupos
o maximizando la distancia entre los grupos
35
Minería de Datos - Agrupamiento
Agrupamiento Particional
36
Minería de Datos - Agrupamiento
Agrupamiento Jerárquico
p1
p3 p4
p2
p1 p2 p3 p4
p1
p3 p4
p2
p1 p2 p3 p4
39
Minería de Datos - Agrupamiento
K-means
Agrupamiento particional
Cada cluster está asociado con un centroide (valor
centroide
El número de clusters “K” debe ser especificado
El algoritmo básico es muy simple
40
Minería de Datos - Agrupamiento
K-means
x1 x5
2
1
x2 x3 x4
1 2 3 4 5
K=2
C1={x1,x2,x4} y C2={x3,x5}
Centros M1= (0+0+5)/3,(2+0+0)/3 = (1.66, 0.66)
Centros M2= (1.5+5)/2,(0+2/2) = (3.25, 1.00)
Calcula variaciones en error:
e12= [(0-1.66)2+(2-0.66)2]+[(0-1.66)2+(0-0.66)2]+[(5-1.66)2+(0-0.66)2]
= 19.36
e22= [(1.5-3.25)2+(0-1)2]+[(5-3.25)2+(2-1)2] = 8.12
Total error = 19.36 + 8.12 = 27.48
41
Minería de Datos - Agrupamiento
K-means
x1 x5
2
1
x2 x3 x4
1 2 3 4 5
Resignar ejemplos
d(M1,x1)=(1.662+1.342)=2.14 d(M2,x1)= 3.40 => x1 Є C1
d(M1,x2)= 1.79 d(M2,x2)= 3.40 => x2 Є C1
d(M1,x3)= 0.83 d(M2,x3)= 2.01 => x3 Є C1
d(M1,x4)= 3.41 d(M2,x4)= 2.01 => x3 Є C2
d(M1,x5)= 3.60 d(M2,x5)= 2.01 => x3 Є C2
C1={x1,x2,x3} y C2={x4,x5}
Centros M1= (0.5, 0.67)
Centros M2= (5.0, 1.0)
42
Minería de Datos - Agrupamiento
K-means
x1 x5
2
1
x2 x3 x4
1 2 3 4 5
otra.
La proximidad es medida por la distancia
primeras iteraciones:
Frecuentemente la condición para parar es cambiada
por “Hasta que algunos puntos cambien de cluster”
45
Minería de Datos - Agrupamiento
Dos agrupamientos diferentes con
k-means 3
2.5
2
Puntos originales
1.5
y
1
0.5
3 3
2.5 2.5
2 2
1.5 1.5
y
1 y 1
0.5 0.5
0 0
Iteration 6
1
2
3
4
5
3
2.5
1.5
y
0.5
47
Minería de Datos - Agrupamiento
Inicialización: Importante!
Iteration 1 Iteration 2 Iteration 3
3 3 3
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
48
Minería de Datos - Agrupamiento
K-means: Evaluación de clusters
La medida más común es la suma del Error Cuadrático (SSE)
Cada punto, el error es la distancia del cluster más cercano
Para obtener el SSE, se elevan al cuadrado los errores y se
suman K
SSE= ∑ ∑ dist 2 mi ,x
i=1 x ∈C i
x es un punto en el cluster Ci y mi es el punto representativo para
el cluster Ci
Se puede mostrar que mi corresponde al centro (promedio) del cluster
Dados dos clusters, se puede elegir uso con el menor error
Una manera fácil de reducir el SSE es incrementar K, el
número de clusters
Un buen agrupamiento con K pequeño, puede tener un SSE más bajo que
un agrupamiento con un K grande
49
Minería de Datos - Agrupamiento
Inicialización: Importante!
Iteration 5
3
2.5
1.5
y
0.5
50
Minería de Datos - Agrupamiento
Inicialización: Importante!
Iteration 1 Iteration 2
3 3
2.5 2.5
2 2
1.5 1.5
y
y
1 1
0.5 0.5
0 0
2 2 2
y
1 1 1
0 0 0
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2
x x x
51
Minería de Datos - Agrupamiento
Ejemplo
Iteration 4
10 clusters
2
y
-2
-4
-6
0 5 10 15 20
x
52
Minería de Datos - Agrupamiento
Ejemplo
Iteration 1 Iteration 2
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
x x
Iteration 3 Iteration 4
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
x x
Comenzando con dos centroides iniciales en un cluster para cada par de clusters
53
Minería de Datos - Agrupamiento
Iteration 1
Ejemplo Iteration 2
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
Iteraxtion 3 Iteraxtion 4
8 8
6 6
4 4
2 2
y
y
0 0
-2 -2
-4 -4
-6 -6
0 5 10 15 20 0 5 10 15 20
x x
56
Minería de Datos - Agrupamiento
Limitaciones: Diferentes
densidades
57
Minería de Datos - Agrupamiento
Limitaciones: Diferentes formas
58
Minería de Datos - Agrupamiento
Limitaciones: Ruido
ruido
Centroides
(mean)
59
Minería de Datos - Agrupamiento
Ejercicio en Weka
• Abrir conjunto de datos Iris
• Quitar la clase
• Aplicar el algoritmo de k-means con tres
clusters
• Visualizar
• Comparar con el conjunto de datos Iris original
60
Minería de Datos - Agrupamiento
Agrupamiento Jerárquico
NO se especifica el número de clusters
La salida es una jerarquía de clusters
Proceso iterativo
61
Minería de Datos - Agrupamiento
Agrupamiento Jerárquico
Aglomerativo
Al comienzo todos los puntos (objetos) son clusters individuales
(tamaño 1) , en cada paso, los clusters mas cercanos se unen
para formar un solo cluster, al final se tiene un solo cluster
p1 p2 p3 p4
62
Minería de Datos - Agrupamiento
Agrupamiento Jerárquico
Divisible
Al comienzo solo existe un cluster (contiene todos los objetos), en
cada paso, se van dividiendo los clusters hasta que cada objeto
es un solo cluster.
1 cluster
63
Minería de Datos - Agrupamiento
Agrupamiento Jerárquico
Los clusters se visualizan como un dendograma: árbol
que registra las secuencias de las uniones y divisiones de
los clusters
6 5
0.2
4
3 4
0.15 2
5
0.1 2
0.05 1
3 1
0
1 3 2 5 4 6
64
Minería de Datos - Agrupamiento
Fortalezas
No se asume un número particular de
clusters
Puede corresponder a taxonomías
significativas
Ejemplo: en biología
reino animal, reconstrucción de filogenia
65
Minería de Datos - Agrupamiento
Agrupamiento Jerárquico
Aglomerativo
El más común
Usa árbol o diagrama llamado dendograma (desplega la relación
entre el cluster y sub-cluster, y el orden en el cual los clusters
fueron fusionados)
p4
p1
p3
p2
p1 p2 p3 p4
p1 p2 p3 p4 p5 ...
p1
p2
p3
p4
p5
.
.
.
Matriz de proximidad
...
p1 p2 p3 p4 p9 p10 p11 p12
68
Minería de Datos - Agrupamiento
Ejemplo
Situación intermedia
Después de algunas C1 C2 C3 C4 C5
uniones (merges), C1
C2
se tienen algunos
C3
C4
C3
C4
clusters C5
C1 Matriz de proximidad
C2 C5
...
p1 p2 p3 p4 p9 p10 p11 p12
69
Minería de Datos - Agrupamiento
Ejemplo
Situación intermedia
Se desea unir los dos clusters mas carcanos (C2 y C5) y actualizar la
matriz de proximidad
C1 C2 C3 C4 C5
C1
C2
C3
C3
C4
C4
C5
Matriz de proximidad
C1
C2 C5
...
p1 p2 p3 p4 p9 p10 p11 p12
70
Ejemplo
Despues de unir
La pregunta es ¿Cómo actualizar la matriz de proximidad?
C2 U
C5
C1 C3 C4
C1 ?
C2 U C5 ? ? ? ?
C3
C3 ?
C4
C4 ?
Matriz de proximidad
C1
C2 U C5
...
p1 p2 p3 p4 p9 p10 p11 p12
71
Similaridad Inter-Cluster
p1 p2 p3 p4 p5 ...
p1
¿Similaridad? p2
p3
p4
p5
MIN .
MAX .
Promedio grupo (average) .
Matriz de
Distancia entre centroides proximidad
Usando función objetivo:
•Metodo de Ward’s usa el error cuadrático
72
Similaridad Inter-Cluster
MIN
73
Minería de Datos - Agrupamiento
Similaridad Inter-Cluster
MAX
74
Minería de Datos - Agrupamiento
Similaridad Inter-Cluster
GROUP AVERAGE
promedio del grupo
75
Minería de Datos - Agrupamiento
Similaridad Inter-Cluster
entre prototipos como centroides
76
Minería de Datos - Agrupamiento
Similaridad Inter-Cluster
MIN o Enlace Simple
La similitud de dos cluster se basa en los dos puntos más
similares (cercanos) en dos clusters
Es determinado por un par de puntos, es decir, un enlace
en la gráfica de proximidad
I1 I2 I3 I4 I5
I1 1,00 0,90 0,10 0,65 0,20
I2 0,90 1,00 0,70 0,60 0,50
I3 0,10 0,70 1,00 0,40 0,30
I4 0,65 0,60 0,40 1,00 0,80
I5 0,20 0,50 0,30 0,80 1,00 1 2 3 4 5
77
Minería de Datos - Agrupamiento
Coordenadas x,y
Ejercicio Punto x y
1
p1 0.40 0.53
0.5
p2 0.22 0.38
5
2
p3 0.35 0.32
0.4
3
6 p4 0.26 0.19
0.3
p5 0.08 0.41
4
0.2
p6 0.45 0.30
0.1
p1 p2 p3 p4 p5 p6
0.1 0.2 0.3 0.4 0.5
p1 0.00 0.24 0.22 0.37 0.34 0.23
p2 0.24 0.00 0.15 0.20 0.14 0.25
p3 0.22 0.15 0.00 0.15 0.28 0.11
p4 0.37 0.20 0.15 0.00 0.29 0.22
Matriz de proximidad usando p5 0.34 0.14 0.28 0.29 0.00 0.39
distancia euclideana
p6 0.23 0.25 0.11 0.22 0.39 0.00
78
Minería de Datos - Agrupamiento
5
1
3
5 0.2
2 1 0.15
2 3 6 0.1
0.05
4
4 0
3 6 2 5 4 1
79
Minería de Datos - Agrupamiento
Fortaleza de
MIN o Enlace Simple
80
Minería de Datos - Agrupamiento
Limitaciones de
MIN o Enlace Simple
Puntos originales
Two Clusters
81
Minería de Datos - Agrupamiento
Similaridad Inter-Cluster
MAX o Enlace Completo
La similaridad de dos clusters esta basada en los dos mas
distantes (mas diferentes) puntos de los clusters
Determinado por todos los pares de puntos de los clusters
I1 I2 I3 I4 I5
I1 1,00 0,90 0,10 0,65 0,20
I2 0,90 1,00 0,70 0,60 0,50
I3 0,10 0,70 1,00 0,40 0,30
I4 0,65 0,60 0,40 1,00 0,80
I5 0,20 0,50 0,30 0,80 1,00 1 2 3 4 5
82
Minería de Datos - Agrupamiento
Similaridad Inter-Cluster
MAX o Enlace Completo
4 1
2 5 0.4
0.35
5
2 0.3
0.25
3 6 0.2
3 0.15
1 0.1
4 0.05
0
3 6 4 1 2 5
83
Minería de Datos - Agrupamiento
Fortaleza de
MAX o Enlace Completo
84
Minería de Datos - Agrupamiento
Limitación de
MAX o Enlace Completo
85
Minería de Datos - Agrupamiento
Similaridad Inter-Cluster
Promedio del cluster
Proximidad de dos clusters es el promedio de la proximidad de
las parejas entre los puntos de los dos clusters
5 4 1
2
0.25
5 0.2
2
0.15
3 6 0.1
1 0.05
4 0
3 3 6 4 1 2 5
87
Minería de Datos - Agrupamiento
Similaridad Inter-Cluster
Promedio del cluster
Compromete tanto el enlace simple como el
completo
Fortalezas
Menos susceptible al ruido y a los datos
atípicos
Limitaciones
Predispuesto para clusters globulares
88
Minería de Datos - Agrupamiento
Similaridad Inter-Cluster
Metodo de Ward
La similitud de dos clusters se basa en el
incremento del error cuadrático cuando dos
clusters se combinan
Similar al promedio de grupo, si la distancia entre
puntos es la distancia cuadrática
Menos susceptible al ruido y a los datos atípicos
Predispuesto para clusters globulares
Jerarquía análoga al K - means
89
Minería de Datos - Agrupamiento
Similaridad Inter-Cluster
Comparación
5
1 4 1
3
2 5
5 5
2 1 2
MIN MAX
2 3 6 3 6
3
1
4 4
4
5
1 5 4 1
2 2
5 Ward’s Method 5
2 2
3 6 Group Average 3 6
3
4 1 1
4 4
3
90
Minería de Datos - Agrupamiento
Agrupamiento jerárquico
Problemas y limitaciones
Una vez se toma una decisión para combinar
dos clusters, no puede deshacerse
La función objetivo no es directamente
minimizada
Los esquemas diferentes tienen problemas con
uno o más de los siguientes factores:
Sensibilidad al ruido y a los datos atípicos
Dificultad para manejar clusters de diferente
tamaño y formas convexas
Rompimiento de clusters grandes
91
Minería de Datos - Agrupamiento
MST: Agrupamiento Jerárquico
Divisivo
Construir MST (Minimum Spanning Tree, Árbol de Mínima
cobertura)
Comenzar con un árbol que consiste en cualquier punto
En los pasos sucesivos, buscar el par de puntos más cercanos
(p, q), el punto “p” está en el árbol actual pero el otro “q” no lo
esta
Adicionar q al árbol y colocar un enlace entre p y q.
92
Minería de Datos - Agrupamiento
Bibliografía