Está en la página 1de 33

Ing. Rafael Lazo Sulca MSc.

Clusters
Temas
• Subtema 1: Introducción
Subtema 2: Modelos y técnicas
Subtema 3: Aplicación en biología
Subtema 4: Ejercicios
Introducción
• El término “Análisis de Clúster” define una gran variedad de
técnicas y métodos propios, todas ellas con un único fin:
clasificar los individuos que intervienen en el estudio y
agruparlos en un número finito de clúster y, todo ello,
dependiendo del comportamiento que tengan los individuos
sobre las variables
Introducción
• El ANÁLISIS DE CLUSTERS también se lo denomina análisis de
conglomerados. Y en contexto de Inteligencia Artificial se utiliza la
expresión clasificación no supervisada.
• La importancia de la clasificación para el procedimiento científico, y
es que todas las ciencias están construidas sobre clasificaciones que
permiten estructurar su dominio de investigación.
Cluster
• Un cluster es un grupo homogéneo.
• Un conjunto de datos/objetos que son similares unos con otros y que
son tratados como un grupo.
• Análisis de Cluster se ocupa de la partición en cluster de un set de
datos
• No son procedimientos basados en modelos probabilísticos. Son
métodos que esencialmente utilizan el concepto de proximidad.
Aplicaciones
• Biología – encontrar agrupaciones de genes con patrones similares
• Marketing – dividir la población de consumidores en segmentos de
mercado
• Separar páginas web en géneros.
• Imagen– para reconocer objetos
• Uso de la tierra – Identificar áreas con usos similares a partir de
imágenes de satélite
• Seguros – Identificar grupos de asegurados con alto costo promedio
de reclamaciones
Análisis de Cluster: etapas
• Selección de las variables: características que describen a los
individuos
• Selección de la Medida de Distancia o Similaridad individuos
(proximidad viene expresada como distancias), variables (viene
expresada como coeficientes que miden la relación).
• Selección de la Técnica Clúster: gran cantidad de técnicas diferentes
Parámetros del Análisis de Cluster
• Centroide – centro euclídeo
• Radio – distancia promedio al centro
• Diámetro – distancia promedio entre pares dentro de un Cluster

Radio y diámetro son medidas de la delgadez de un Cluster entorno a


su centro.
Parámetros del Análisis de Cluster
• Otras medidas (como la distancia euclídea entre los centroides de dos
Cluster) medirán la separación entre dos Cluster.
• Un buen Análisis de Cluster producirá distancias mínimas “dentro” y
máximas “entre”
• Un Análisis de Cluster de calidad puede ayudar a localizar patrones
ocultos
Análisis de Cluster
• Ayuda a entender la agrupación natural o la estructura de un
conjunto de datos
• Si disponemos de un conjunto de datos multivariante:

• Habitualmente los datos no ocupan uniformemente todo el espacio


• Identificar localizaciones del espacio poco y superpobladas
• Ayuda a visualizar
Modelos y técnicas
(Asimétrico)
Método
supervisado
Clasificación
(Simétrico)
Método no
Supervisado
Métodos no supervisados
• Técnicas de reducción de la dimensión
• Reglas de asociación
• Clustering
Clustering
• K-Means
• Fuzzy C-Means
• K-Medoids
• CLARA
• CLARANS
• QT-Clustering
• DBSCAN
K-Means
1 - Determinar el numero de
clusters
K-Means
1 - Determinar el numero de
clusters
2 – Se determinan los centroides
aleatoriamente
K-Means
1 - Determinar el numero de
clusters
2 – Se determinan los centroides
aleatoriamente
3 – Distancia hacia los centroides
( se determina el centroide que
tenga menor distancia)
K-Means
1 - Determinar el numero de
clusters
2 – Se determinan los centroides
aleatoriamente
3 – Distancia hacia los centroides
( se determina el centroide que
tenga menor distancia)
4 - Asignación al centroide más
próximo
K-Means
1 - Determinar el numero de
clusters
2 – Se determinan los centroides
aleatoriamente
3 – Distancia hacia los centroides
( se determina el centroide que
tenga menor distancia)
4 - Asignación al centroide más
próximo
K-Means
1 - Determinar el numero de
clusters
2 – Se determinan los centroides
aleatoriamente
3 – Distancia hacia los centroides
( se determina el centroide que
tenga menor distancia)
4 - Asignación al centroide más
próximo
K-Means
1 - Determinar el numero de
clusters
2 – Se determinan los centroides
aleatoriamente
3 – Distancia hacia los centroides
( se determina el centroide que
tenga menor distancia)
4 - Asignación al centroide más
próximo
K-Means
1 - Determinar el numero de clusters
2 – Se determinan los centroides
aleatoriamente
3 – Distancia hacia los centroides ( se determina
el centroide que tenga menor distancia)
4 - Asignación al centroide más
próximo
5 - Recálculo de los centroides como media de
los puntos pertenecientes a cada cluster
K-Means
• Partiendo de unos centroides aleatorios, asigna una de las
observaciones al cluster del centroide más cercano. Tras haber
asignado todas las observaciones a los diferentes cluster, recalcula los
centroides de cada agrupación
Ventajas de K-Means
• Interpretación:
Es simple, fácil de implementar y de interpretar sus resultados

• Coste Computacional:
Es rápido y eficiente en términos de coste computacional

• Supuestos:
Trabaja adecuadamente aunque no se verifiquen los supuestos
de partida
Desventajas de K-Means
Es sensible a la existencia de outliers
Trabaja con datos numéricos
K-Means converge, pero encuentra mínimos locales de la función de coste. Es
sensible con la inicialización, No existe una solución única para un número K de
clusters
Produce clusters de tamaño similar, aunque los datos de entrada tengan diferente
tamaño de cluster.
Todos las unidades/objetos tienen que pertenecer a un cluster
No puede determinar clusters no convexos o clusters con formas inusuales
¿Y si la media no es la medida de tendencia central adecuada?
K-Medias no funciona bien cuando los
clusters son:
• De distinto tamaño
• Diferente densidad
• No convexos
Numero de clusters recomendado
Diferentes contribuciones
• K-MEDOIDS (Vinod, 1969, Kaufman & Rousseeuw, 1990)
• K-MEDIAS DIFUSA (Dunn, 1973 ; Bezdek, Ehrlich & Full, 1984)
• K-MEDIAS RECORTADAS (Cuesta-Alberto et al., 1997)
• K-ARMÓNICA MEDIAS (Hammerly y Elkan, 2002)
• K-MEDIAS SPARSE (Witten y Tibshirani, 2010)
• K-MEDIANA (MacQueen , 1967)
Aplicación en biología
• La aplicación del análisis de clusters esta dirigido al conjunto de
muestras que representan el objetivo de estudio, estas pueden ser:
• Secuencias alineadas
• Matrices de expresión
• Datos cuantitativos relacionados a las secuencias
Buscamos grupos, determinar como se
agrupan los datos
Buscamos grupos, determinar como se
agrupan los datos
¿Qué quiere decir encontrar grupos?
• Se trata de clasificar las observaciones en grupos de modo que las
observaciones de un mismo grupo sean lo más similares que
podamos y que los grupos entre sí sean muy distintos.
• La mayor parte de ellos no tienen un modelo probabilístico debajo, no
son procedimientos basados en modelo.
• Son métodos que esencialmente utilizan el concepto de proximidad.
Modelos y técnicas
• procedimientos jerárquicos
• y métodos de particionamiento.
Ejercicios
• Ejercicio base
• Características de suelo

También podría gustarte