Segmentacion08 PDF

Segmentacin o Clustering
Marta Millan
millan@eisc.univalle.edu.co
www.eisc.univalle.edu.co/materias
Datos no etiquetados
Clustering: proceso de agrupar objetos
similares: clusters
Similitud: valores de atributos de objetos
Aprendizaje no supervisado
MTODOS
Particionales
Jerrquicos
Basados en
Densidad
Grid
Modelos
Usados: deteccin outliers
Segmentacin: requisitos
No necesita etiqueta de clase

Nmero mximo de clusters
Nmero de iteraciones
Nmero mnimo de elementos en cada
cluster
Que es el anlisis de cluster?
Cluster: coleccin de objetos

Similares dentro del mismo cluster
Diferentes de objetos clusters
Anlisis de cluster
Agrupar objetos en clusters
Es aprendizaje no supervisado: no hay clases

predefinidas
Ejemplos de aplicaciones
Marketing: Ayuda a descubrir distintos

grupos en la base de datos de clientes
Seguros: Identificar grupos de asegurados
con ciertas caractersticas
Ciudades: Identificar grupos de casas de
acuerdo al tipo, valor, y localizacin
geogrfica
Bondad del cluster

Un buen mtodo de clustering : clusters de calidad
Alta similitud dentro de cada clase
Baja similitud de elementos de distintas clases
La calidad depende de la medida de similitud que

se utilice
La calidad medida por su capacidad para descubrir
patrones ocultos
Requerimientos de los mtodos de

clustering
Escalables
Tratar distintos tipos de variables
Descubrimiento de clusters con formas arbitrarias
Requisitos mnimos del dominio para determinar
los parmetros
Capaz de tratar datos con ruido
Insensible al orden de los registros
Resultados interpretables
Estructuras de datos
Matriz de datos
Matriz de
distancias
x 11
...
x
i1
...
x
n1
0
d(2,1)
d(3,1 )
:
d ( n ,1)
...
x 1f
...
...
...
...
x if
...
...
...
...
...
...
x nf
...
0
d ( 3,2 )
:
d ( n ,2 )
:
...
x 1p
...
x ip
...
x np
... 0
Medidas de calidad del cluster

Similitud: Se expresa en trmino de una funcin de
distancia: d(i, j) entre objetos i,j
Tambin se tiene una medida de calidad que mide
la bondad del cluster.
Las definiciones de funciones de distancia difieren
dependiendo del tipo de variables
Si los datos tienen significados diferentes se
pueden aplicar pesos sobre las variables
Tipos de datos posibles
Variables de intervalo: medidas continuas

Variables binarias
Nominales, ordinales
Variables mixtas
Variables de intervalo
Estandarizar los datos
1. Calcular la desviacin respecto de la media
s f = 1n (| x1 f m f | + | x2 f m f | +...+ | xnf m f |)
donde
xif,...,xnf son n medidas de f, mf es el valor medio
de f
m f = 1n (x1 f + x2 f
+ ... +
2. Calcular la medida estndar
xif m f
zif =
sf
xnf )
Similitud entre objetos

Las distancias se utilizan para medir la similitud de dos
objetos
La distancia Minkowski se define:
d (i, j) = q (| x x |q + | x x | q +...+ | x x |q )
i1
j1
i2
j2
ip
jp
donde i = (xi1, xi2, , xip) y j = (xj1, xj2, , xjp) son dos objetos con
p atributos y q es un entero positivo
Si q = 1, d es la distancia de Manhattan
d(i, j) =| x x | +| x x | +...+| x x |
i1 j1 i2 j2
ip jp
Similitud entre objetos

Si q = 2, d es la distancia Euclidea
d (i, j) = (| x x |2 + | x x |2 +...+ | x x |2 )
i1
j1
i2
j2
ip
jp
Tambin se pueden utilizar pesos para dar
mas importancia a ciertas variables
Variables binarias
Toma dos valores: 0, 1 (ausencia, presencia)
Variables Binarias
Valores 0,1: ausencia, presencia
Una tabla de contingencia para datos binarios
Objecto j
1
Objecto i
1
a
b
0
c
d
sum a + c b + d
sum
a +b
c+d
p
Variables Binarias
Simtricas: ambos estados igual ponderacin
Asimtricas: estados no igualmente
importantes
Coeficiente invariante variables simtricas
d (i, j ) =
b+c
a+b+c+d
Coeficiente de Jaccard es invariante si la

variable es asimtrica
d (i, j ) =
b+c
a+b+c
Similitud en variables binarias (ejemplo)

Ejemplo
Nombre
Jack
Mary
Jim
Fiebre
S
S
S
Tos
N
N
P
Test-1
P
P
N
Test-2
N
N
N
Todos los atributos son asimtricos
Test-3
N
P
N
Test-4
N
N
N
Similitud en variables binarias (ejemplo)
Si los valores de S y P los transformamos a 1 y el

valor N a 0 se tiene
0 + 1
= 0 . 33
2 + 0 + 1
1 + 1
d ( jack , jim ) =
= 0 . 67
1 + 1 + 1
1 + 2
d ( jim , mary ) =
= 0 . 75
1 + 1 + 2
d ( jack , mary
) =
Variables Nominales
Generalizacin de variables binarias donde hay ms
de 2 estados
Mtodo 1: Aplicacin Simple
m: # de valores iguales, p: # total de variables
d ( i , j ) = p p m
Mtodo 2: Convertir variable en binaria asimtrica

(variable binaria por cada uno de los estados
nominales). Aplicar medida anterior
Variables ordinales

Pueden ser discretas o continuas

El orden es importante
Distancia similar variables intervalo
Sea f variable ordinal con Mf estados ordenados
{1,..., Mf}.
Variables ordinales
Clculo de distancia
Reemplazar cada xif por su rango correspondiente rif

r if {1,..., M f }
Transformar el rango de la variable a [0, 1]

reemplazando el objecto i de la variable f mediante la
frmula
z
if
r if 1
=
M f 1
Calcular la similitud usando medidas para variables de

intervalos
Variables de tipos mixtos

Se pueden dar todos los tipos de variables
Frmula para combinar los efectos
d (i, j ) =
f es binaria o nominal:
dij(f) = 0 si xif = xjf .
En otro caso dij(f) = 1
p
( f )
( f )
f = 1
ij
ij
p
( f )
f = 1
ij
Variables de tipos mixtos

Si f es variable intervalo: usar la distancia
normalizada
Si f is ordinal
Computar los rangos y tratar zi como si fuera basada en
intervalos
z if
r
M
if
f
Enfoques ms importantes

Algoritmos divisivos: Construyen varias

particiones y luego las evalan
Jerrquicos: Crean una descomposicin
jerrquica
Basados en Densidad: utilizan funciones de
densidad
Basados en un modelo: se tiene un modelo
como hiptesis
Algoritmos divisivos
Se divide el conjunto de datos en k clusters.
k-means (MacQueen67): Cada cluster se

representa por la media del centro del cluster
k-medoids (Kaufman & Rousseeuw87): Cada
cluster se representa por uno de los objetos del
cluster.
El mtodo de las K-Means
Dado K, el algoritmo se implementa en 4 pasos :

1.
Dividir los objetos en K subconjuntos no vacos
2.
Calcular la semilla como el centroide (punto medio)
del cluster
3.
Asignar cada objeto al cluster mas cercano
4.
Ir al paso 2, para cuando no se puedan hacer mas
asignaciones.
El mtodo de las K-medias
Ejemplo
10
10
7
6
1
0
10
0
0
10
10
10
9
9
8
8
7
7
6
6
0
0
10
10
Comentarios sobre las K-means
Ventajas

Relativamente eficiente
Generalmente termina con un ptimo local.
Debilidad

Solo es aplicable cuando la media est definida. datos

categricos?
Se necesita especificar K de antemano.
No es capaz de tratar ni con ruido ni con ruido
No es apropiado para descubrir cluster que no tengan
formas no convexas
Variaciones del mtodo de las K-Means

Las variantes se diferencian por:

Seleccin de las k medias iniciales

Clculo de similitudes
Estrategias para calcular las medias
Tratamiento de datos categricos

Reemplazar media por moda

Usar las medidas de similitud para los objetos
categricos
El mtodo de los K-medoides

Encontrar los elementos representativos y formar los
clusters
Iterativamente reemplaza uno de estos elementos por
uno que no lo es si ello mejora la calidad de los
clusters obtenidos
Es eficiente para conjuntos de datos pequeos
CLARA
CLARANS : muestreo aleatorio
Mtodos jerrquicos
Utilizan la matriz de distancias. NO requiere el nmero de
cluster como entrada pero necesita una condicin de
terminacin
Step
0
a
b
c
d
e
Step
4
Step
1
Step
2
Step
3
Step
4
ab
aglomerativos
(AGNES)
abcde
cde
de
Step
3
Step
2
Step
1
Step
0
divisivos
(DIANA)
AGNES (Agglomerative Nesting)

Est en los paquetes estadsticos
Une los nodos que tengan la menor
disimilaridad.
10
10
10
0
0
10
10
10
DIANA (Divisive Analysis)

Orden inverso de AGNES
10
10
10
0
0
10
10
10
Mtodos jerrquicos
Su mayor desventaja es que no escalan bien

(aglomerativos)
Se pueden integrar con lo mtodos basados en
distancias
BIRCH (1996): usa un rbol pero incrementalmente ajusta la

calidad de los sub-clusters
CURE (1998): selecciona los puntos mas dispersos y luego

los une haca el centro del cluster
Mtodos basados en la densidad

Descubre clusters de formas arbitrarias
Trata el ruido
Una sola pasada
Necesita parmetros como condicin de terminacin
DBSCAN: Ester, et al. (KDD96)
OPTICS: Ankerst, et al (SIGMOD99).
DENCLUE: Hinneburg & D. Keim (KDD98)
CLIQUE: Agrawal, et al. (SIGMOD98)
Parmetros de los mtodos basados en

densidad
Eps: radio mximo del vecindario
MinPts: nmero mnimo de puntos en el vecindario de ese
punto
NEps(p):
{q pertenecientes a D | dist(p,q) <= Eps}
Un pto p es alcanzable directamente desde q con Eps,
MinPts si
1) p pertenece NEps(q)
2) |NEps (q)| >= MinPts
p
q
MinPts = 5
Eps = 1 cm
Parmetros de los mtodos basados en

densidad
Un pto p es Densidad-alcanzable
desde un pto q si hay una cadena
de puntos p1, , pn, p1 = q, pn =
p tales que pi+1 es directamente
alcanzable desde pi
Un pto p es Densidad-conectado con
q si hay un pto o tal que, p y q son
son densidad alcanzables desde o
p
q
p1
q
o
Otros mtodos
Enfoques basados en redes neuronales
Representan cada cluster como un ejemplar que

acta como prototipo del cluster
Los objetos nuevos se distribuyen en el cluster
cuyo ejemplar es mas similar de acuerdo a una
determinada distancia
Algoritmos de Clustering
Redes de Kohonen [Kohonen 95]
Objetivo:
Dibuja un mapa bidimensional, sobre el cual

localiza las instancias agrupadas por conjuntos.

Redes de Kohonen
Ventajas:
La representacin grfica de los resultados es intuitiva.
Funciona de forma robusta con todo tipo de atributos.
Deficiencias:
Los dos ejes descritos por el grfico representan funciones

complejas.
Y-Kohonen
Redes de Kohonen [Kohonen 95]
X-Kohonen
Resumen
El anlisis de cluster permite agrupar objetos
basndose en su similitud y tiene muchas
aplicaciones
La medida de similitud se calcula
dependiendo del tipo de datos

Segmentacion08 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Segmentacion08 PDF

Cargado por

Copyright:

Formatos disponibles

Segmentacin o Clustering

Usados: deteccin outliers

No necesita etiqueta de clase

Que es el anlisis de cluster?

Cluster: coleccin de objetos

Es aprendizaje no supervisado: no hay clases

Marketing: Ayuda a descubrir distintos

Bondad del cluster

La calidad depende de la medida de similitud que

Requerimientos de los mtodos de

Medidas de calidad del cluster

Tipos de datos posibles

Variables de intervalo: medidas continuas

2. Calcular la medida estndar

Similitud entre objetos

La distancia Minkowski se define:

Similitud entre objetos

Toma dos valores: 0, 1 (ausencia, presencia)

Coeficiente de Jaccard es invariante si la

Similitud en variables binarias (ejemplo)

Todos los atributos son asimtricos

Similitud en variables binarias (ejemplo)

Si los valores de S y P los transformamos a 1 y el

Mtodo 2: Convertir variable en binaria asimtrica

Pueden ser discretas o continuas

Reemplazar cada xif por su rango correspondiente rif

Transformar el rango de la variable a [0, 1]

Calcular la similitud usando medidas para variables de

Variables de tipos mixtos

Variables de tipos mixtos

Algoritmos divisivos: Construyen varias

k-means (MacQueen67): Cada cluster se

El mtodo de las K-Means

Dado K, el algoritmo se implementa en 4 pasos :

El mtodo de las K-medias

Comentarios sobre las K-means

Solo es aplicable cuando la media est definida. datos

Variaciones del mtodo de las K-Means

Seleccin de las k medias iniciales

Tratamiento de datos categricos

Reemplazar media por moda

El mtodo de los K-medoides

Es eficiente para conjuntos de datos pequeos

AGNES (Agglomerative Nesting)

DIANA (Divisive Analysis)

Su mayor desventaja es que no escalan bien

BIRCH (1996): usa un rbol pero incrementalmente ajusta la

CURE (1998): selecciona los puntos mas dispersos y luego

Mtodos basados en la densidad

Parmetros de los mtodos basados en

Parmetros de los mtodos basados en

Representan cada cluster como un ejemplar que

Redes de Kohonen [Kohonen 95]

Dibuja un mapa bidimensional, sobre el cual

La representacin grfica de los resultados es intuitiva.

Funciona de forma robusta con todo tipo de atributos.

Los dos ejes descritos por el grfico representan funciones

Redes de Kohonen [Kohonen 95]

También podría gustarte