Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Clústers
Pre-procesamiento de datos
D = {x(1) , . . . , x(n) }
d(x(i) , x(j) )
2. Una noción de similitud entre todo par de objetos x(i) y x(j) medida como
s(x(i) , x(j) )
I Estandarizar
1. Centrar: restrar la media de cada vector
2. Escalar: dividir para la desviación estandar
⇒ Mean = 0 y STDEV = 1
I Normalizar
I Mapea los valores al rango R[0,1]
xi − mı́n {x1 , . . . , xp }
x̃i =
máx {x1 , . . . , xp } − mı́n {x1 , . . . , xp }
I Ponderar caracterı́sticas
I Transformaciones (e.g. log, box-cox)
I Transformación Ranking (i.e. se reemplazan los valores medidos por sus
rankings)
Toda noción de distancia d entre dos objetos x, y, y z debe cumplir los siguientes
axiomas:
I d(x, y) = d(y, x) (conmutativo)
I d(x, y) ≥ 0 (no negativa)
I d(x, y) = 0 si y solo si x = y (reflexivo)
I d(x, y) ≤ d(x, z) + d(z, y) (desigualdad triangular)
Toda noción de similitud s entre dos objetos x y y debe cumplir los siguientes
axiomas:
I 0 ≤ s(x, y) ≤ 1
I s(x, x) = 1
I s(x, y) = s(y, x)
I Matriz de distancias
0 d12 · · · d1n
d21 0 · · · d2n
Mdist (D) = .. .. .. ..
. . . .
dn1 dn2 · · · 0
I Matriz de similitudes
1 s12 · · · s1n
s21 1 · · · s2n
Msim (D) = .. .. .. ..
. . . .
sn1 sn2 · · · 1
I Distancia euclideana:
q
l2 (x, y) = (x1 − y1 )2 + · · · + (xp − yp )2
I Distancia manhattan:
I Distancia Canberra:
|x1 − y1 | |xp − yp |
d(x, y) = + ··· +
|x1 | + |y1 | |xp | + |yp |
I Distancia Minkowski:
1/p
lp (x, y) = |x1 − y1 |p + · · · + |xp − yp |p
x| y
J(x, y) =
1| x + 1| y − x| y
0 si x = y;
(
δ(x, y) =
1 si x , y.
I Índice Dice: útil para variables categóricas (primero convertidos en binarias)
2|X ∩ Y|
QS(X, Y) =
|X| + |Y|
Distancia de Gower
1. Asigne una medida de distancia para cada variable y luego normalı́cela entre
0y1
2. Combine (convexamente) las diferentes medidas; generalmente utilice el
promedio
i λi = 1 y λi ≥ 0.
P
donde
Pre-procesamiento de datos
(2n − 3)!
2(n−2) (n
− 2)!
# hojas # dendo-
gramas
2 1
3 3
4 15
5 105
... ...
10 34,459,425
d(C1 , C2 ) = mı́n{d(x, y) : x ∈ C1 , y ∈ C2 }
d(C1 , C2 ) = máx{d(x, y) : x ∈ C1 , y ∈ C2 }
I Average linkage
1 X
d(C1 , C2 ) = d(x, y)
|C1 ||C2 |
x∈C1 ,y∈C2
Pre-procesamiento de datos
Def. centroide ci
El centroide ci del cluster Ci es un punto tal que
X
ci = arg mı́n d(x, ci )
x∈Ci
Costo(C) =WSS
K X
X
= (x − ci )2
i=1 x∈Ci
Notación
I k: número de clústers
I Nk : número de puntos en el clúster k
I xki : punto i-ésimo en el clúster k
I x̄k : promedio del clúster k
I x̄: promedio de todos los puntos
Pre-procesamiento de datos
Cluster
Un cluster C con respecto a ε y Nmin es un subconjunto no vacı́o de D que satisface las siguientes
condiciones:
1. ∀x, y ∈ D, si x ∈ C y y es alcanzable por densidad desde x con respecto a ε y Nmin , entonces
y ∈ C (maximalidad)
2. ∀x, y ∈ D, x y y estan conectados por densidad con respecto a ε y Nmin (conectividad)
N X
X K
mı́n z = wij d(xi , cj )
i=1 j=1
K
X
s.t.: wij = 1 (i = 1, . . . , N)
j=1
wij ∈ {0, 1}
N X
X K
mı́n z = (ηij − γij )
i=1 j=1
K
X
s.t.: wij = 1 (i = 1, . . . , N)
j=1
xi − cj ≤ ηij (i = 1, . . . , N; j = 1, . . . , K)
cj − xi ≤ ηij (i = 1, . . . , N; j = 1, . . . , K)
γij ≤ (1 − wij )M (i = 1, . . . , N; j = 1, . . . , K)
ηij , γij ≥ 0, wij ∈ {0, 1} M0