Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Segmentacion08 PDF
Segmentacion08 PDF
Marta Millan
millan@eisc.univalle.edu.co
www.eisc.univalle.edu.co/materias
Segmentacin o Clustering
Datos no etiquetados
Clustering: proceso de agrupar objetos
similares: clusters
Similitud: valores de atributos de objetos
Aprendizaje no supervisado
Segmentacin o Clustering
MTODOS
Particionales
Jerrquicos
Basados en
Densidad
Grid
Modelos
Segmentacin: requisitos
Anlisis de cluster
Agrupar objetos en clusters
Ejemplos de aplicaciones
Escalables
Tratar distintos tipos de variables
Descubrimiento de clusters con formas arbitrarias
Requisitos mnimos del dominio para determinar
los parmetros
Capaz de tratar datos con ruido
Insensible al orden de los registros
Resultados interpretables
Estructuras de datos
Matriz de datos
Matriz de
distancias
x 11
...
x
i1
...
x
n1
0
d(2,1)
d(3,1 )
:
d ( n ,1)
...
x 1f
...
...
...
...
x if
...
...
...
...
...
...
x nf
...
0
d ( 3,2 )
:
d ( n ,2 )
:
...
x 1p
...
x ip
...
x np
... 0
Variables de intervalo
Estandarizar los datos
1. Calcular la desviacin respecto de la media
s f = 1n (| x1 f m f | + | x2 f m f | +...+ | xnf m f |)
donde
xif,...,xnf son n medidas de f, mf es el valor medio
de f
m f = 1n (x1 f + x2 f
+ ... +
xif m f
zif =
sf
xnf )
d (i, j) = q (| x x |q + | x x | q +...+ | x x |q )
i1
j1
i2
j2
ip
jp
donde i = (xi1, xi2, , xip) y j = (xj1, xj2, , xjp) son dos objetos con
p atributos y q es un entero positivo
Si q = 1, d es la distancia de Manhattan
d(i, j) =| x x | +| x x | +...+| x x |
i1 j1 i2 j2
ip jp
d (i, j) = (| x x |2 + | x x |2 +...+ | x x |2 )
i1
j1
i2
j2
ip
jp
Tambin se pueden utilizar pesos para dar
mas importancia a ciertas variables
Variables binarias
Variables Binarias
Valores 0,1: ausencia, presencia
Una tabla de contingencia para datos binarios
Objecto j
1
Objecto i
1
a
b
0
c
d
sum a + c b + d
sum
a +b
c+d
p
Variables Binarias
Simtricas: ambos estados igual ponderacin
Asimtricas: estados no igualmente
importantes
Coeficiente invariante variables simtricas
d (i, j ) =
b+c
a+b+c+d
b+c
a+b+c
Fiebre
S
S
S
Tos
N
N
P
Test-1
P
P
N
Test-2
N
N
N
Test-3
N
P
N
Test-4
N
N
N
) =
Variables Nominales
Generalizacin de variables binarias donde hay ms
de 2 estados
Mtodo 1: Aplicacin Simple
m: # de valores iguales, p: # total de variables
d ( i , j ) = p p m
Variables ordinales
Variables ordinales
Clculo de distancia
z
if
r if 1
=
M f 1
d (i, j ) =
f es binaria o nominal:
dij(f) = 0 si xif = xjf .
En otro caso dij(f) = 1
p
( f )
( f )
f = 1
ij
ij
p
( f )
f = 1
ij
z if
r
M
if
f
Enfoques ms importantes
Algoritmos divisivos
Se divide el conjunto de datos en k clusters.
Ejemplo
10
10
7
6
1
0
10
0
0
10
10
10
9
9
8
8
7
7
6
6
0
0
10
10
Ventajas
Relativamente eficiente
Generalmente termina con un ptimo local.
Debilidad
CLARA
CLARANS : muestreo aleatorio
Mtodos jerrquicos
Utilizan la matriz de distancias. NO requiere el nmero de
cluster como entrada pero necesita una condicin de
terminacin
Step
0
a
b
c
d
e
Step
4
Step
1
Step
2
Step
3
Step
4
ab
aglomerativos
(AGNES)
abcde
cde
de
Step
3
Step
2
Step
1
Step
0
divisivos
(DIANA)
10
10
0
0
10
10
10
10
10
10
0
0
10
10
10
Mtodos jerrquicos
NEps(p):
{q pertenecientes a D | dist(p,q) <= Eps}
Un pto p es alcanzable directamente desde q con Eps,
MinPts si
1) p pertenece NEps(q)
2) |NEps (q)| >= MinPts
p
q
MinPts = 5
Eps = 1 cm
p
q
p1
q
o
Otros mtodos
Enfoques basados en redes neuronales
Algoritmos de Clustering
Objetivo:
Algoritmos de Clustering
Redes de Kohonen
Ventajas:
Deficiencias:
Algoritmos de Clustering
Y-Kohonen
X-Kohonen
Resumen
El anlisis de cluster permite agrupar objetos
basndose en su similitud y tiene muchas
aplicaciones
La medida de similitud se calcula
dependiendo del tipo de datos