AYPP07

06 de Diciembre de 2010
ANÁLISIS
DE
CONGLOMERADOS
(Parte 1)
Postgrado de Investigación de Operaciones
Facultad de Ingeniería
Universidad Central de Venezuela
Análisis y Procesamiento de Patrones José Luis Quintero 1
Puntos a tratar
1. Definición de clustering
2. Ventajas del clustering
3. Medidas de similitud
4. Clustering jerárquico
5. Agrupamiento por particiones
6. Validación

Definición de clustering
Aprendizaje no
supervisado:
Outlook Temperature Humidity Windy Class
El conjunto de sunny
sunny
hot
hot
high
high
false
true
?
?
observaciones no tienen overcast hot high false ?
rain mild high false ?
clases asociadas. El rain cool normal false ?
objetivo es detectar rain cool normal true ?
overcast cool normal true ?
regularidades en los sunny mild high false ?
sunny cool normal false ?
datos de cualquier tipo: rain mild normal false ?
agrupaciones, sunny mild normal true ?
overcast mild high true ?
contornos, overcast hot normal false ?
rain mild high true ?
asociaciones, valores
anómalos.
Análisis y Procesamiento de Patrones José Luis Quintero

Cluster: un grupo o conjunto de objetos que:

Son similares a cualquier otro incluido en el mismo
cluster.
Son disimilares (distintos) a los objetos incluidos en
otros grupos.
Distancias entre
Distancias dentro clusters se
de clusters se maximizan
minimizan

Clustering (análisis de clusters):

Segmentar una población heterogénea en un
número de subgrupos homogéneos o clusters.
Aplicaciones típicas:
– Como una tarea de preprocesamiento antes de aplicar
otra técnica de descubrimiento del conocimiento (por
ejemplo, como paso previo a clasificación, si obtener
etiquetas de clase es caro). O puede servir para
identificar variables útiles para clasificar.
– Como técnica de descubrimiento del conocimiento para
obtener información acerca de la distribución de los
datos (p.e. encontrar clientes con hábitos de compra
similares)

• Clustering
(Segmentación): Se
trata de buscar, de
forma no
supervisada,
agrupamientos
naturales en un
conjunto de datos tal
que tengan
semejanzas.

Algunas aplicaciones
• Marketing: descubrimiento de distintos grupos de

clientes en la BD. Usar este conocimiento en la
política publicitaria, ofertas, …
• Seguros: Identificar grupos de asegurados con
parecidas características (siniestros, posesiones,
….). Ofertarles productos que otros clientes de ese
grupo ya poseen y ellos no.
• Planificación urbana: Identificar grupos de viviendas
de acuerdo a su tipo, valor o situación geográfica
• Diversos usos en ciencias: Agrupar genes con
funciones asociadas, identificar filogenias de genes
u organismos,…
Clustering de
precipitaciones

Puntos a tratar
6. Validación

Ventajas del clustering
• Un buen método de clustering debe producir clusters
en los que:
– se maximice la similaridad intra-cluster
– se minimice la similaridad inter-cluster
• La calidad del clustering resultante depende tanto de

la medida de similaridad usada como de su
implementación
• La calidad de un método de clustering también se
mide por su capacidad para descubrir patrones
ocultos (de especial interés en minería de datos)
Clustering: descubrimiento de outliers
• Outliers: objetos/instancias que no pertenecen a

ningún cluster o forman clusters de cardinalidad muy
pequeña.
cluster
outliers
• En algunas aplicaciones el objetivo es descubrir

outliers, no clusters (outlier analysis)

Agrupamientos
¿Cuál es la forma natural de agrupar los personajes?

Agrupamientos
Hombres
vs.
Mujeres

Agrupamientos
Simpsons
vs.
Empleados de
la escuela de
Springfield

Agrupamientos
¡¡¡ El clustering es subjetivo !!!

Puntos a tratar
6. Validación

Medidas de similitud
Peter Pedro
342.7
0.23
3
Usualmente, se expresan en términos de

distancias:
d(i,j) > d(i,k)
indica que el objeto i es más parecido a
k que a j
La definición de la métrica de
similitud/distancia
será distinta en función del tipo de dato y
de la interpretación semántica que nosotros
hagamos.
En otras palabras, la similitud entre objetos es

subjetiva.
subjetiva
¿Cuántos ¿Dos?
agrupamientos?
¿Cuatro?
¿Seis?

Métricas de distancia
Distancia de Minkowski
Distancia de Manhattan (r=1) / city block / taxicab
Distancia euclídea (r=2):
Distancia de Chebyshev (r→∞) / dominio / chessboard

Distancia de Minkowski
Distancia de Manhattan = 12
Distancia Euclídea ≅ 8.5
Distancia de Chebyshev = 6

Distancia de Chebyshev
También conocida
como distancia de
tablero de ajedrez
(chessboard distance):
Número de
movimientos
que el rey ha de hacer
para llegar de una
casilla a otra en un
tablero de ajedrez.

Dimensionalidad de los datos
¿Por qué es un problema?
Los datos en una dimensión están relativamente

cerca
Al añadir una nueva dimensión, los datos se alejan.
Cuando tenemos muchas dimensiones, las medidas
de distancia no son útiles (“equidistancia”).

Puntos a tratar
6. Validación

Clustering jerárquico
DENDROGRAMA La similitud entre dos objetos viene

DENDROGRAMA:
dada por la “altura” del nodo común más cercano.

El DENDROGRAMA nos puede ayudar a determinar el

número adecuado de agrupamientos (aunque
normalmente no será tan fácil).

Outlier
El DENDROGRAMA también nos puede servir para

detectar outliers.

¿Cómo medir la distancia entre clusters?
MIN
single--link
single
VECINO MÁS CERCANO
MAX
complete
linkage
(diameter)
diameter)
VECINO MÁS LEJANO

¿Cómo medir la distancia entre clusters?
Promedio
Centroides
× ×

EJEMPLO ILUSTRATIVO






Ejercicio
Utilizar un algoritmo aglomerativo de clustering jerárquico
para agrupar los datos descritos por la siguiente matriz de
distancias:
Variantes:
Single
Single--link (mínima distancia entre agrupamientos)
Complete
Complete--link (máxima distancia entre
agrupamientos)
Ejercicio resuelto
Single-link
Complete-link

Distancia de Manhattan entre centroides.
2 clusters
3 clusters
4 clusters
(1,2) (2,2) (2,1) (2,3) (3,3) (3,2) (4,1) (3,1) (4.2) (4,3) (5,3) (4,4)

Puntos a tratar
6. Validación

Agrupamiento por particiones




Ejercicio
Agrupar los 8 puntos de la

figura en 3 clusters usando
el algoritmo de las K
medias.
Centroides iniciales:
A1, A4 y A7
Métricas de distancia:
Distancia euclídea
Distancia de Manhattan
Distancia de
Chebyshev

Ejercicio resuelto
Distancia euclídea

Ejercicio resuelto
Distancia euclídea
Primera iteración Segunda iteración

Ejercicio resuelto
Distancia euclídea
Tercera iteración Configuración final

Puntos a tratar
6. Validación

Validación
¿Cuál es el número adecuado de agrupamientos?

p.ej. Suma de Errores Cuadráticos
k=1 k=2 k=3

J = 873.0 J = 173.1 J = 133.6

Validación
1.00E+03
9.00E+02
8.00E+02
7.00E+02
6.00E+02
5.00E+02
4.00E+02
3.00E+02
2.00E+02
1.00E+02
0.00E+00
1 2 3 4 5 6
El codo en k=2 sugiere que éste es el valor

adecuado para el número de agrupamientos.
Pensamiento de hoy
“Nada es permanente
excepto el cambio”.
Heráclito

AYPP07

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

AYPP07

Cargado por

Copyright:

Formatos disponibles

06 de Diciembre de 2010

2. Ventajas del clustering

5. Agrupamiento por particiones

Análisis y Procesamiento de Patrones José Luis Quintero 2

Análisis y Procesamiento de Patrones José Luis Quintero

Cluster: un grupo o conjunto de objetos que:

Análisis y Procesamiento de Patrones José Luis Quintero

Clustering (análisis de clusters):

Análisis y Procesamiento de Patrones José Luis Quintero

Análisis y Procesamiento de Patrones José Luis Quintero

• Marketing: descubrimiento de distintos grupos de

Análisis y Procesamiento de Patrones José Luis Quintero

2. Ventajas del clustering

5. Agrupamiento por particiones

Análisis y Procesamiento de Patrones José Luis Quintero 8

• La calidad del clustering resultante depende tanto de

• Outliers: objetos/instancias que no pertenecen a

• En algunas aplicaciones el objetivo es descubrir

Análisis y Procesamiento de Patrones José Luis Quintero

¿Cuál es la forma natural de agrupar los personajes?

Análisis y Procesamiento de Patrones José Luis Quintero 11

¿Cuál es la forma natural de agrupar los personajes?

Análisis y Procesamiento de Patrones José Luis Quintero 12

¿Cuál es la forma natural de agrupar los personajes?

Análisis y Procesamiento de Patrones José Luis Quintero 13

¿Cuál es la forma natural de agrupar los personajes?

¡¡¡ El clustering es subjetivo !!!

Análisis y Procesamiento de Patrones José Luis Quintero 14

2. Ventajas del clustering

5. Agrupamiento por particiones

Análisis y Procesamiento de Patrones José Luis Quintero 15

Usualmente, se expresan en términos de

En otras palabras, la similitud entre objetos es

Análisis y Procesamiento de Patrones José Luis Quintero 18

Distancia de Manhattan (r=1) / city block / taxicab

Distancia euclídea (r=2):

Distancia de Chebyshev (r→∞) / dominio / chessboard

Análisis y Procesamiento de Patrones José Luis Quintero

Análisis y Procesamiento de Patrones José Luis Quintero

Análisis y Procesamiento de Patrones José Luis Quintero

¿Por qué es un problema?

Los datos en una dimensión están relativamente

Análisis y Procesamiento de Patrones José Luis Quintero 22

2. Ventajas del clustering

5. Agrupamiento por particiones

Análisis y Procesamiento de Patrones José Luis Quintero 23

DENDROGRAMA La similitud entre dos objetos viene

Análisis y Procesamiento de Patrones José Luis Quintero 24

El DENDROGRAMA nos puede ayudar a determinar el

Análisis y Procesamiento de Patrones José Luis Quintero 25

El DENDROGRAMA también nos puede servir para

Análisis y Procesamiento de Patrones José Luis Quintero 26

¿Cómo medir la distancia entre clusters?

Análisis y Procesamiento de Patrones José Luis Quintero 27

¿Cómo medir la distancia entre clusters?

Análisis y Procesamiento de Patrones José Luis Quintero 28

Análisis y Procesamiento de Patrones José Luis Quintero

Análisis y Procesamiento de Patrones José Luis Quintero

Análisis y Procesamiento de Patrones José Luis Quintero

Análisis y Procesamiento de Patrones José Luis Quintero

Análisis y Procesamiento de Patrones José Luis Quintero

Análisis y Procesamiento de Patrones José Luis Quintero

Análisis y Procesamiento de Patrones José Luis Quintero 36

Distancia de Manhattan entre centroides.