Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fayyad (1996)
Color
AGRUPAMIENTO DE DATOS (CLUSTERING)
Permite encontrar grupos de datos con características similares.
Aplicaciones
Identificar clientes con características similares para ofrecer servicios
adecuados.
Identificar alumnos con rendimientos académicos similares con el objetivo de
reducir la deserción escolar.
Seguridad: detección de fraudes.
Clasificación de documentos.
Algoritmo Jerárquico
Generan una estructura jerárquica de clusters que
permiten ver las particiones de las instancias con distinta
granularidad.
Una instancia pertenece a un único grupo.
MEDIDAS DE DISTANCIA
Se utilizan para estimar la similitud entre instancias al momento de
decidir si deben ser incluidas en el mismo grupo o en grupos diferentes.
La más utilizada suele ser la Distancia Euclídea
n
distancia ( X , Y ) (x y )
i 1
i i
2
https://www.youtube.com/watch?v=zHbxbb2ye3E
ALGORITMO K-MEDIAS
Elegir aleatoriamente K vectores de entrada como centros
iniciales.
Repetir
Calcular los centros de los K clusters.
Redistribuir los patrones entre los clusters utilizando la mínima
distancia euclídea al cuadrado como clasificador.
hasta que no cambien los centros de los clusters
K_Medias.py
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters
El proceso inicia
tomando k=3
ejemplos como
centros iniciales
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters
Calcular la
distancia de cada
ejemplo a cada
centro y tomar la
menor
𝑿 = 𝒙𝟏 , 𝒙𝟐
C = 𝒄𝟏 , 𝒄 𝟐
dist2(C,X) = (𝒄𝟏 − 𝒙𝟏 )𝟐 + (𝒄𝟐 − 𝒙𝟐 )𝟐
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters
Calcular la
distancia de cada
ejemplo a cada
centro y tomar la
menor
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters
Asignar cada
ejemplo al centro
más cercano
Agrupando los ejemplos de PuntosClusters.csv usando
k-medias con k = 3 clusters
Recalcular la
posición de los
centros.
Recalcular la
posición de los
centros.
El modelo resultante
estará definido por los
centros (individuos
promedio) de cada grupo.
𝐶1 = 4.9972 , 4.9380
𝐶2 = 7.5672 , 5.9504
𝐶3 = 6.4782 , 7.9324
Utilizando el modelo obtenido con k-medias
Calcular la
distancia del nuevo
ejemplo a cada
centro y asignarlo
al cluster más
cercano
K-MEDIAS DESDE RAPIDMINER
Utilice los datos del
archivo
PuntosClusters.csv
K-MEDIAS DESDE RAPIDMINER
K-MEDIAS DESDE RAPIDMINER
K-MEDIAS DESDE RAPIDMINER
Modelo obtenido como resultado del agrupamiento con k=3
VISUALIZACIÓN DE LOS GRUPOS
VISUALIZACIÓN DE LOS GRUPOS
USANDO EL ID DE GRUPO COMO ETIQUETA (LABEL)
Puede utilizarse un árbol para explicar cómo se forman los grupos
USANDO EL ID DE GRUPO COMO ETIQUETA (LABEL)
VISUALIZANDO LOS VALORES DE CLASE EN CADA GRUPO
Falta configurarlo
VISUALIZANDO LOS VALORES DE CLASE EN CADA GRUPO
VISUALIZANDO LOS VALORES DE CLASE EN CADA GRUPO
RESULTADO DE LA AGREGACIÓN
EJEMPLO 2 - AGRUPANDO FLORES DE IRIS
https://archive.ics.uci.edu/ml/datasets/Iris
EJEMPLO 2 - AGRUPANDO FLORES DE IRIS
https://archive.ics.uci.edu/ml/datasets/Iris
EJEMPLO 2 - AGRUPANDO FLORES DE IRIS
Sebusca identificar atributos con valores distintos entre
grupos
EJEMPLO 2 - AGRUPANDO FLORES DE IRIS
EJEMPLO 2 - AGRUPANDO FLORES DE IRIS
MÉTRICAS DE VALIDACIÓN DEL AGRUPAMIENTO
Como el objetivo del clustering es agrupar objetos
similares en el mismo cluster y objetos diferentes en
distintos clusters, las métricas de validación están
basadas usualmente en los siguientes criterios:
Cohesión
Separación
CRITERIOS DE LAS MÉTRICAS DE VALIDACIÓN
Cohesión
Se busca que los miembros de un mismo grupo se encuentren lo
más cerca que sea posible unos de otros.
Separación
Los clusters deben estar ampliamente separados entre ellos.
Existen varios enfoques para medir esta distancia entre clusters:
distancia entre los miembros más cercanos, distancia entre los
miembros más distantes o la distancia entre los centroides.
INDICE SILHOUETTE
Dado un punto x del conjunto de datos :
Cohesión a(x) : distancia promedio de x a todos
los demás puntos en el mismo cluster.
𝑏 𝑥 − 𝑎(𝑥)
𝑠 𝑥 =
max{𝑏 𝑥 , 𝑎(𝑥)}
𝑁
1
𝑆𝐶 = 𝑠(𝑥𝑖 )
𝑁
𝑖=1
o en el directorio
C:\Users\Alumnos\.RapidMiner\extensions
SILHOUETTE EN RAPIDMINER
Operador (Average)
Performance
EJERCICIO
2.0 0.6808
3.0 0.5510
4.0 0.4951
5.0 0.4885
OPERADOR LOOP PARAMETERS
2.0 0.4048
3.0 0.6664
4.0 0.7545
5.0 0.8062
EJERCICIO
El archivo SEMILLAS.csv contiene información de granos que
pertenecen a tres variedades de trigo: Kama, Rosa y Canadiense.
Para cada grano se midieron las siguientes características:
área A,
perímetro P,
compacidad C = 4 * pi * A / P ^ 2,
longitud del núcleo,
ancho del núcleo,
coeficiente de asimetría
longitud del surco del núcleo