Está en la página 1de 43

Segmentacin o Clustering

Marta Millan
millan@eisc.univalle.edu.co

www.eisc.univalle.edu.co/materias

Segmentacin o Clustering
Datos no etiquetados
Clustering: proceso de agrupar objetos
similares: clusters
Similitud: valores de atributos de objetos
Aprendizaje no supervisado

Segmentacin o Clustering
MTODOS
Particionales
Jerrquicos
Basados en
Densidad
Grid
Modelos

Usados: deteccin outliers

Segmentacin: requisitos

No necesita etiqueta de clase


Nmero mximo de clusters
Nmero de iteraciones
Nmero mnimo de elementos en cada
cluster

Que es el anlisis de cluster?

Cluster: coleccin de objetos


Similares dentro del mismo cluster
Diferentes de objetos clusters

Anlisis de cluster
Agrupar objetos en clusters

Es aprendizaje no supervisado: no hay clases


predefinidas

Ejemplos de aplicaciones

Marketing: Ayuda a descubrir distintos


grupos en la base de datos de clientes
Seguros: Identificar grupos de asegurados
con ciertas caractersticas
Ciudades: Identificar grupos de casas de
acuerdo al tipo, valor, y localizacin
geogrfica

Bondad del cluster


Un buen mtodo de clustering : clusters de calidad
Alta similitud dentro de cada clase
Baja similitud de elementos de distintas clases

La calidad depende de la medida de similitud que


se utilice
La calidad medida por su capacidad para descubrir
patrones ocultos

Requerimientos de los mtodos de


clustering

Escalables
Tratar distintos tipos de variables
Descubrimiento de clusters con formas arbitrarias
Requisitos mnimos del dominio para determinar
los parmetros
Capaz de tratar datos con ruido
Insensible al orden de los registros
Resultados interpretables

Estructuras de datos
Matriz de datos

Matriz de
distancias

x 11

...
x
i1
...
x
n1

0
d(2,1)

d(3,1 )

:
d ( n ,1)

...

x 1f

...

...
...

...
x if

...
...

...

...

...

...

x nf

...

0
d ( 3,2 )

:
d ( n ,2 )

:
...

x 1p

...
x ip

...
x np

... 0

Medidas de calidad del cluster


Similitud: Se expresa en trmino de una funcin de
distancia: d(i, j) entre objetos i,j
Tambin se tiene una medida de calidad que mide
la bondad del cluster.
Las definiciones de funciones de distancia difieren
dependiendo del tipo de variables
Si los datos tienen significados diferentes se
pueden aplicar pesos sobre las variables

Tipos de datos posibles

Variables de intervalo: medidas continuas


Variables binarias
Nominales, ordinales
Variables mixtas

Variables de intervalo
Estandarizar los datos
1. Calcular la desviacin respecto de la media

s f = 1n (| x1 f m f | + | x2 f m f | +...+ | xnf m f |)
donde
xif,...,xnf son n medidas de f, mf es el valor medio
de f

m f = 1n (x1 f + x2 f

+ ... +

2. Calcular la medida estndar

xif m f
zif =
sf

xnf )

Similitud entre objetos


Las distancias se utilizan para medir la similitud de dos
objetos


La distancia Minkowski se define:

d (i, j) = q (| x x |q + | x x | q +...+ | x x |q )
i1
j1
i2
j2
ip
jp
donde i = (xi1, xi2, , xip) y j = (xj1, xj2, , xjp) son dos objetos con
p atributos y q es un entero positivo


Si q = 1, d es la distancia de Manhattan

d(i, j) =| x x | +| x x | +...+| x x |
i1 j1 i2 j2
ip jp

Similitud entre objetos


Si q = 2, d es la distancia Euclidea

d (i, j) = (| x x |2 + | x x |2 +...+ | x x |2 )
i1
j1
i2
j2
ip
jp
Tambin se pueden utilizar pesos para dar
mas importancia a ciertas variables

Variables binarias


Toma dos valores: 0, 1 (ausencia, presencia)

Variables Binarias
Valores 0,1: ausencia, presencia
Una tabla de contingencia para datos binarios
Objecto j

1
Objecto i

1
a
b
0
c
d
sum a + c b + d

sum
a +b
c+d
p

Variables Binarias
Simtricas: ambos estados igual ponderacin
 Asimtricas: estados no igualmente
importantes
Coeficiente invariante variables simtricas


d (i, j ) =

b+c
a+b+c+d

Coeficiente de Jaccard es invariante si la


variable es asimtrica
d (i, j ) =

b+c
a+b+c

Similitud en variables binarias (ejemplo)


Ejemplo
Nombre
Jack
Mary
Jim

Fiebre
S
S
S

Tos
N
N
P

Test-1
P
P
N

Test-2
N
N
N

Todos los atributos son asimtricos

Test-3
N
P
N

Test-4
N
N
N

Similitud en variables binarias (ejemplo)

Si los valores de S y P los transformamos a 1 y el


valor N a 0 se tiene
0 + 1
= 0 . 33
2 + 0 + 1
1 + 1
d ( jack , jim ) =
= 0 . 67
1 + 1 + 1
1 + 2
d ( jim , mary ) =
= 0 . 75
1 + 1 + 2
d ( jack , mary

) =

Variables Nominales
Generalizacin de variables binarias donde hay ms
de 2 estados
Mtodo 1: Aplicacin Simple
m: # de valores iguales, p: # total de variables

d ( i , j ) = p p m

Mtodo 2: Convertir variable en binaria asimtrica


(variable binaria por cada uno de los estados
nominales). Aplicar medida anterior

Variables ordinales





Pueden ser discretas o continuas


El orden es importante
Distancia similar variables intervalo
Sea f variable ordinal con Mf estados ordenados
{1,..., Mf}.

Variables ordinales
Clculo de distancia


Reemplazar cada xif por su rango correspondiente rif


r if {1,..., M f }

Transformar el rango de la variable a [0, 1]


reemplazando el objecto i de la variable f mediante la
frmula

z


if

r if 1
=
M f 1

Calcular la similitud usando medidas para variables de


intervalos

Variables de tipos mixtos


Se pueden dar todos los tipos de variables
Frmula para combinar los efectos

d (i, j ) =

f es binaria o nominal:
dij(f) = 0 si xif = xjf .
En otro caso dij(f) = 1

p
( f )
( f )
f = 1
ij
ij
p
( f )
f = 1
ij

Variables de tipos mixtos


Si f es variable intervalo: usar la distancia
normalizada
Si f is ordinal
Computar los rangos y tratar zi como si fuera basada en
intervalos

z if

r
M

if
f

Enfoques ms importantes





Algoritmos divisivos: Construyen varias


particiones y luego las evalan
Jerrquicos: Crean una descomposicin
jerrquica
Basados en Densidad: utilizan funciones de
densidad
Basados en un modelo: se tiene un modelo
como hiptesis

Algoritmos divisivos
Se divide el conjunto de datos en k clusters.


k-means (MacQueen67): Cada cluster se


representa por la media del centro del cluster
k-medoids (Kaufman & Rousseeuw87): Cada
cluster se representa por uno de los objetos del
cluster.

El mtodo de las K-Means

Dado K, el algoritmo se implementa en 4 pasos :


1.
Dividir los objetos en K subconjuntos no vacos
2.
Calcular la semilla como el centroide (punto medio)
del cluster
3.
Asignar cada objeto al cluster mas cercano
4.
Ir al paso 2, para cuando no se puedan hacer mas
asignaciones.

El mtodo de las K-medias

Ejemplo
10

10

7
6

1
0

10

0
0

10

10
10

9
9

8
8

7
7

6
6

0
0

10

10

Comentarios sobre las K-means

Ventajas



Relativamente eficiente
Generalmente termina con un ptimo local.

Debilidad





Solo es aplicable cuando la media est definida. datos


categricos?
Se necesita especificar K de antemano.
No es capaz de tratar ni con ruido ni con ruido
No es apropiado para descubrir cluster que no tengan
formas no convexas

Variaciones del mtodo de las K-Means


Las variantes se diferencian por:




Seleccin de las k medias iniciales


Clculo de similitudes
Estrategias para calcular las medias

Tratamiento de datos categricos





Reemplazar media por moda


Usar las medidas de similitud para los objetos
categricos

El mtodo de los K-medoides


Encontrar los elementos representativos y formar los
clusters
Iterativamente reemplaza uno de estos elementos por
uno que no lo es si ello mejora la calidad de los
clusters obtenidos


Es eficiente para conjuntos de datos pequeos

CLARA
CLARANS : muestreo aleatorio

Mtodos jerrquicos
Utilizan la matriz de distancias. NO requiere el nmero de
cluster como entrada pero necesita una condicin de
terminacin
Step
0

a
b
c
d
e
Step
4

Step
1

Step
2

Step
3

Step
4

ab

aglomerativos
(AGNES)

abcde
cde
de
Step
3

Step
2

Step
1

Step
0

divisivos
(DIANA)

AGNES (Agglomerative Nesting)


Est en los paquetes estadsticos
Une los nodos que tengan la menor
disimilaridad.
10

10

10

0
0

10

10

10

DIANA (Divisive Analysis)


Orden inverso de AGNES

10

10

10

0
0

10

10

10

Mtodos jerrquicos

Su mayor desventaja es que no escalan bien


(aglomerativos)
Se pueden integrar con lo mtodos basados en
distancias


BIRCH (1996): usa un rbol pero incrementalmente ajusta la


calidad de los sub-clusters

CURE (1998): selecciona los puntos mas dispersos y luego


los une haca el centro del cluster

Mtodos basados en la densidad


Descubre clusters de formas arbitrarias
Trata el ruido
Una sola pasada
Necesita parmetros como condicin de terminacin
DBSCAN: Ester, et al. (KDD96)
OPTICS: Ankerst, et al (SIGMOD99).
DENCLUE: Hinneburg & D. Keim (KDD98)
CLIQUE: Agrawal, et al. (SIGMOD98)

Parmetros de los mtodos basados en


densidad
Eps: radio mximo del vecindario
MinPts: nmero mnimo de puntos en el vecindario de ese
punto

NEps(p):
{q pertenecientes a D | dist(p,q) <= Eps}
Un pto p es alcanzable directamente desde q con Eps,
MinPts si
1) p pertenece NEps(q)
2) |NEps (q)| >= MinPts

p
q

MinPts = 5
Eps = 1 cm

Parmetros de los mtodos basados en


densidad
Un pto p es Densidad-alcanzable
desde un pto q si hay una cadena
de puntos p1, , pn, p1 = q, pn =
p tales que pi+1 es directamente
alcanzable desde pi
Un pto p es Densidad-conectado con
q si hay un pto o tal que, p y q son
son densidad alcanzables desde o

p
q

p1

q
o

Otros mtodos
Enfoques basados en redes neuronales


Representan cada cluster como un ejemplar que


acta como prototipo del cluster
Los objetos nuevos se distribuyen en el cluster
cuyo ejemplar es mas similar de acuerdo a una
determinada distancia

Algoritmos de Clustering


Redes de Kohonen [Kohonen 95]

Objetivo:


Dibuja un mapa bidimensional, sobre el cual


localiza las instancias agrupadas por conjuntos.

Algoritmos de Clustering




Redes de Kohonen
Ventajas:


La representacin grfica de los resultados es intuitiva.

Funciona de forma robusta con todo tipo de atributos.

Deficiencias:


Los dos ejes descritos por el grfico representan funciones


complejas.

Algoritmos de Clustering

Y-Kohonen

Redes de Kohonen [Kohonen 95]

X-Kohonen

Resumen
El anlisis de cluster permite agrupar objetos
basndose en su similitud y tiene muchas
aplicaciones
La medida de similitud se calcula
dependiendo del tipo de datos

También podría gustarte