Está en la página 1de 50

06 de Diciembre de 2010

ANÁLISIS
DE
CONGLOMERADOS
(Parte 1)
Postgrado de Investigación de Operaciones
Facultad de Ingeniería
Universidad Central de Venezuela
Análisis y Procesamiento de Patrones José Luis Quintero 1
Puntos a tratar

1. Definición de clustering

2. Ventajas del clustering

3. Medidas de similitud

4. Clustering jerárquico

5. Agrupamiento por particiones

6. Validación

Análisis y Procesamiento de Patrones José Luis Quintero 2


Definición de clustering

Aprendizaje no
supervisado:
Outlook Temperature Humidity Windy Class
El conjunto de sunny
sunny
hot
hot
high
high
false
true
?
?
observaciones no tienen overcast hot high false ?
rain mild high false ?
clases asociadas. El rain cool normal false ?
objetivo es detectar rain cool normal true ?
overcast cool normal true ?
regularidades en los sunny mild high false ?
sunny cool normal false ?
datos de cualquier tipo: rain mild normal false ?
agrupaciones, sunny mild normal true ?
overcast mild high true ?
contornos, overcast hot normal false ?
rain mild high true ?
asociaciones, valores
anómalos.

Análisis y Procesamiento de Patrones José Luis Quintero


Definición de clustering

Cluster: un grupo o conjunto de objetos que:


Son similares a cualquier otro incluido en el mismo
cluster.
Son disimilares (distintos) a los objetos incluidos en
otros grupos.
Distancias entre
Distancias dentro clusters se
de clusters se maximizan
minimizan

Análisis y Procesamiento de Patrones José Luis Quintero


Definición de clustering

Clustering (análisis de clusters):


Segmentar una población heterogénea en un
número de subgrupos homogéneos o clusters.

Aplicaciones típicas:
– Como una tarea de preprocesamiento antes de aplicar
otra técnica de descubrimiento del conocimiento (por
ejemplo, como paso previo a clasificación, si obtener
etiquetas de clase es caro). O puede servir para
identificar variables útiles para clasificar.
– Como técnica de descubrimiento del conocimiento para
obtener información acerca de la distribución de los
datos (p.e. encontrar clientes con hábitos de compra
similares)

Análisis y Procesamiento de Patrones José Luis Quintero


Definición de clustering

• Clustering
(Segmentación): Se
trata de buscar, de
forma no
supervisada,
agrupamientos
naturales en un
conjunto de datos tal
que tengan
semejanzas.

Análisis y Procesamiento de Patrones José Luis Quintero


Algunas aplicaciones

• Marketing: descubrimiento de distintos grupos de


clientes en la BD. Usar este conocimiento en la
política publicitaria, ofertas, …
• Seguros: Identificar grupos de asegurados con
parecidas características (siniestros, posesiones,
….). Ofertarles productos que otros clientes de ese
grupo ya poseen y ellos no.
• Planificación urbana: Identificar grupos de viviendas
de acuerdo a su tipo, valor o situación geográfica
• Diversos usos en ciencias: Agrupar genes con
funciones asociadas, identificar filogenias de genes
u organismos,…

Clustering de
precipitaciones

Análisis y Procesamiento de Patrones José Luis Quintero


Puntos a tratar

1. Definición de clustering

2. Ventajas del clustering

3. Medidas de similitud

4. Clustering jerárquico

5. Agrupamiento por particiones

6. Validación

Análisis y Procesamiento de Patrones José Luis Quintero 8


Ventajas del clustering
• Un buen método de clustering debe producir clusters
en los que:
– se maximice la similaridad intra-cluster
– se minimice la similaridad inter-cluster

• La calidad del clustering resultante depende tanto de


la medida de similaridad usada como de su
implementación
• La calidad de un método de clustering también se
mide por su capacidad para descubrir patrones
ocultos (de especial interés en minería de datos)
Análisis y Procesamiento de Patrones José Luis Quintero
Clustering: descubrimiento de outliers

• Outliers: objetos/instancias que no pertenecen a


ningún cluster o forman clusters de cardinalidad muy
pequeña.

cluster

outliers

• En algunas aplicaciones el objetivo es descubrir


outliers, no clusters (outlier analysis)

Análisis y Procesamiento de Patrones José Luis Quintero


Agrupamientos

¿Cuál es la forma natural de agrupar los personajes?

Análisis y Procesamiento de Patrones José Luis Quintero 11


Agrupamientos

¿Cuál es la forma natural de agrupar los personajes?

Hombres
vs.
Mujeres

Análisis y Procesamiento de Patrones José Luis Quintero 12


Agrupamientos

¿Cuál es la forma natural de agrupar los personajes?

Simpsons
vs.
Empleados de
la escuela de
Springfield

Análisis y Procesamiento de Patrones José Luis Quintero 13


Agrupamientos

¿Cuál es la forma natural de agrupar los personajes?

¡¡¡ El clustering es subjetivo !!!

Análisis y Procesamiento de Patrones José Luis Quintero 14


Puntos a tratar

1. Definición de clustering

2. Ventajas del clustering

3. Medidas de similitud

4. Clustering jerárquico

5. Agrupamiento por particiones

6. Validación

Análisis y Procesamiento de Patrones José Luis Quintero 15


Medidas de similitud

Peter Pedro

342.7
0.23
3
Análisis y Procesamiento de Patrones José Luis Quintero 16
Medidas de similitud

Usualmente, se expresan en términos de


distancias:
d(i,j) > d(i,k)
indica que el objeto i es más parecido a
k que a j

La definición de la métrica de
similitud/distancia
será distinta en función del tipo de dato y
de la interpretación semántica que nosotros
hagamos.

En otras palabras, la similitud entre objetos es


subjetiva.
subjetiva
Análisis y Procesamiento de Patrones José Luis Quintero 17
Medidas de similitud

¿Cuántos ¿Dos?
agrupamientos?

¿Cuatro?
¿Seis?

Análisis y Procesamiento de Patrones José Luis Quintero 18


Métricas de distancia

Distancia de Minkowski

 Distancia de Manhattan (r=1) / city block / taxicab

 Distancia euclídea (r=2):

 Distancia de Chebyshev (r→∞) / dominio / chessboard

Análisis y Procesamiento de Patrones José Luis Quintero


Métricas de distancia

Distancia de Minkowski

 Distancia de Manhattan = 12
 Distancia Euclídea ≅ 8.5
 Distancia de Chebyshev = 6

Análisis y Procesamiento de Patrones José Luis Quintero


Métricas de distancia

Distancia de Chebyshev

 También conocida
como distancia de
tablero de ajedrez
(chessboard distance):
Número de
movimientos
que el rey ha de hacer
para llegar de una
casilla a otra en un
tablero de ajedrez.

Análisis y Procesamiento de Patrones José Luis Quintero


Dimensionalidad de los datos

¿Por qué es un problema?

 Los datos en una dimensión están relativamente


cerca
 Al añadir una nueva dimensión, los datos se alejan.
 Cuando tenemos muchas dimensiones, las medidas
de distancia no son útiles (“equidistancia”).

Análisis y Procesamiento de Patrones José Luis Quintero 22


Puntos a tratar

1. Definición de clustering

2. Ventajas del clustering

3. Medidas de similitud

4. Clustering jerárquico

5. Agrupamiento por particiones

6. Validación

Análisis y Procesamiento de Patrones José Luis Quintero 23


Clustering jerárquico

DENDROGRAMA La similitud entre dos objetos viene


DENDROGRAMA:
dada por la “altura” del nodo común más cercano.

Análisis y Procesamiento de Patrones José Luis Quintero 24


Clustering jerárquico

El DENDROGRAMA nos puede ayudar a determinar el


número adecuado de agrupamientos (aunque
normalmente no será tan fácil).

Análisis y Procesamiento de Patrones José Luis Quintero 25


Clustering jerárquico

Outlier

El DENDROGRAMA también nos puede servir para


detectar outliers.

Análisis y Procesamiento de Patrones José Luis Quintero 26


Clustering jerárquico

¿Cómo medir la distancia entre clusters?

 MIN
single--link
single
VECINO MÁS CERCANO

 MAX
complete
linkage
(diameter)
diameter)
VECINO MÁS LEJANO

Análisis y Procesamiento de Patrones José Luis Quintero 27


Clustering jerárquico

¿Cómo medir la distancia entre clusters?

 Promedio

 Centroides

× ×

Análisis y Procesamiento de Patrones José Luis Quintero 28


Clustering jerárquico

EJEMPLO ILUSTRATIVO

Análisis y Procesamiento de Patrones José Luis Quintero


Clustering jerárquico

Análisis y Procesamiento de Patrones José Luis Quintero


Clustering jerárquico

Análisis y Procesamiento de Patrones José Luis Quintero


Clustering jerárquico

Análisis y Procesamiento de Patrones José Luis Quintero


Clustering jerárquico

Análisis y Procesamiento de Patrones José Luis Quintero


Clustering jerárquico

Análisis y Procesamiento de Patrones José Luis Quintero


Clustering jerárquico
Ejercicio
Utilizar un algoritmo aglomerativo de clustering jerárquico
para agrupar los datos descritos por la siguiente matriz de
distancias:

Variantes:
 Single
Single--link (mínima distancia entre agrupamientos)
 Complete
Complete--link (máxima distancia entre
agrupamientos)
Análisis y Procesamiento de Patrones José Luis Quintero 35
Clustering jerárquico

Ejercicio resuelto

Single-link

Complete-link

Análisis y Procesamiento de Patrones José Luis Quintero 36


Clustering jerárquico

Distancia de Manhattan entre centroides.

2 clusters

3 clusters
4 clusters

(1,2) (2,2) (2,1) (2,3) (3,3) (3,2) (4,1) (3,1) (4.2) (4,3) (5,3) (4,4)

Análisis y Procesamiento de Patrones José Luis Quintero


Puntos a tratar

1. Definición de clustering

2. Ventajas del clustering

3. Medidas de similitud

4. Clustering jerárquico

5. Agrupamiento por particiones

6. Validación

Análisis y Procesamiento de Patrones José Luis Quintero 38


Agrupamiento por particiones

Análisis y Procesamiento de Patrones José Luis Quintero 39


Agrupamiento por particiones

Análisis y Procesamiento de Patrones José Luis Quintero 40


Agrupamiento por particiones

Análisis y Procesamiento de Patrones José Luis Quintero 41


Agrupamiento por particiones

Análisis y Procesamiento de Patrones José Luis Quintero 42


Agrupamiento por particiones
Ejercicio

Agrupar los 8 puntos de la


figura en 3 clusters usando
el algoritmo de las K
medias.

Centroides iniciales:
A1, A4 y A7

Métricas de distancia:

 Distancia euclídea
 Distancia de Manhattan
 Distancia de
Chebyshev

Análisis y Procesamiento de Patrones José Luis Quintero 43


Agrupamiento por particiones

Ejercicio resuelto
Distancia euclídea

Análisis y Procesamiento de Patrones José Luis Quintero 44


Agrupamiento por particiones

Ejercicio resuelto
Distancia euclídea

Primera iteración Segunda iteración

Análisis y Procesamiento de Patrones José Luis Quintero 45


Agrupamiento por particiones

Ejercicio resuelto
Distancia euclídea

Tercera iteración Configuración final

Análisis y Procesamiento de Patrones José Luis Quintero 46


Puntos a tratar

1. Definición de clustering

2. Ventajas del clustering

3. Medidas de similitud

4. Clustering jerárquico

5. Agrupamiento por particiones

6. Validación

Análisis y Procesamiento de Patrones José Luis Quintero 47


Validación

¿Cuál es el número adecuado de agrupamientos?


p.ej. Suma de Errores Cuadráticos

k=1 k=2 k=3


J = 873.0 J = 173.1 J = 133.6

Análisis y Procesamiento de Patrones José Luis Quintero 48


Validación

1.00E+03

9.00E+02

8.00E+02

7.00E+02

6.00E+02

5.00E+02

4.00E+02

3.00E+02

2.00E+02

1.00E+02

0.00E+00
1 2 3 4 5 6

El codo en k=2 sugiere que éste es el valor


adecuado para el número de agrupamientos.
Análisis y Procesamiento de Patrones José Luis Quintero 49
Pensamiento de hoy

“Nada es permanente
excepto el cambio”.
Heráclito

Análisis y Procesamiento de Patrones José Luis Quintero 50

También podría gustarte