Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANÁLISIS
DE
CONGLOMERADOS
(Parte 1)
Postgrado de Investigación de Operaciones
Facultad de Ingeniería
Universidad Central de Venezuela
Análisis y Procesamiento de Patrones José Luis Quintero 1
Puntos a tratar
1. Definición de clustering
3. Medidas de similitud
4. Clustering jerárquico
6. Validación
Aprendizaje no
supervisado:
Outlook Temperature Humidity Windy Class
El conjunto de sunny
sunny
hot
hot
high
high
false
true
?
?
observaciones no tienen overcast hot high false ?
rain mild high false ?
clases asociadas. El rain cool normal false ?
objetivo es detectar rain cool normal true ?
overcast cool normal true ?
regularidades en los sunny mild high false ?
sunny cool normal false ?
datos de cualquier tipo: rain mild normal false ?
agrupaciones, sunny mild normal true ?
overcast mild high true ?
contornos, overcast hot normal false ?
rain mild high true ?
asociaciones, valores
anómalos.
Aplicaciones típicas:
– Como una tarea de preprocesamiento antes de aplicar
otra técnica de descubrimiento del conocimiento (por
ejemplo, como paso previo a clasificación, si obtener
etiquetas de clase es caro). O puede servir para
identificar variables útiles para clasificar.
– Como técnica de descubrimiento del conocimiento para
obtener información acerca de la distribución de los
datos (p.e. encontrar clientes con hábitos de compra
similares)
• Clustering
(Segmentación): Se
trata de buscar, de
forma no
supervisada,
agrupamientos
naturales en un
conjunto de datos tal
que tengan
semejanzas.
Clustering de
precipitaciones
1. Definición de clustering
3. Medidas de similitud
4. Clustering jerárquico
6. Validación
cluster
outliers
Hombres
vs.
Mujeres
Simpsons
vs.
Empleados de
la escuela de
Springfield
1. Definición de clustering
3. Medidas de similitud
4. Clustering jerárquico
6. Validación
Peter Pedro
342.7
0.23
3
Análisis y Procesamiento de Patrones José Luis Quintero 16
Medidas de similitud
La definición de la métrica de
similitud/distancia
será distinta en función del tipo de dato y
de la interpretación semántica que nosotros
hagamos.
¿Cuántos ¿Dos?
agrupamientos?
¿Cuatro?
¿Seis?
Distancia de Minkowski
Distancia de Minkowski
Distancia de Manhattan = 12
Distancia Euclídea ≅ 8.5
Distancia de Chebyshev = 6
Distancia de Chebyshev
También conocida
como distancia de
tablero de ajedrez
(chessboard distance):
Número de
movimientos
que el rey ha de hacer
para llegar de una
casilla a otra en un
tablero de ajedrez.
1. Definición de clustering
3. Medidas de similitud
4. Clustering jerárquico
6. Validación
Outlier
MIN
single--link
single
VECINO MÁS CERCANO
MAX
complete
linkage
(diameter)
diameter)
VECINO MÁS LEJANO
Promedio
Centroides
× ×
EJEMPLO ILUSTRATIVO
Variantes:
Single
Single--link (mínima distancia entre agrupamientos)
Complete
Complete--link (máxima distancia entre
agrupamientos)
Análisis y Procesamiento de Patrones José Luis Quintero 35
Clustering jerárquico
Ejercicio resuelto
Single-link
Complete-link
2 clusters
3 clusters
4 clusters
(1,2) (2,2) (2,1) (2,3) (3,3) (3,2) (4,1) (3,1) (4.2) (4,3) (5,3) (4,4)
1. Definición de clustering
3. Medidas de similitud
4. Clustering jerárquico
6. Validación
Centroides iniciales:
A1, A4 y A7
Métricas de distancia:
Distancia euclídea
Distancia de Manhattan
Distancia de
Chebyshev
Ejercicio resuelto
Distancia euclídea
Ejercicio resuelto
Distancia euclídea
Ejercicio resuelto
Distancia euclídea
1. Definición de clustering
3. Medidas de similitud
4. Clustering jerárquico
6. Validación
1.00E+03
9.00E+02
8.00E+02
7.00E+02
6.00E+02
5.00E+02
4.00E+02
3.00E+02
2.00E+02
1.00E+02
0.00E+00
1 2 3 4 5 6
“Nada es permanente
excepto el cambio”.
Heráclito