Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clusters
Temas
• Subtema 1: Introducción
Subtema 2: Modelos y técnicas
Subtema 3: Aplicación en biología
Subtema 4: Ejercicios
Introducción
• El término “Análisis de Clúster” define una gran variedad de
técnicas y métodos propios, todas ellas con un único fin:
clasificar los individuos que intervienen en el estudio y
agruparlos en un número finito de clúster y, todo ello,
dependiendo del comportamiento que tengan los individuos
sobre las variables
Introducción
• El ANÁLISIS DE CLUSTERS también se lo denomina análisis de
conglomerados. Y en contexto de Inteligencia Artificial se utiliza la
expresión clasificación no supervisada.
• La importancia de la clasificación para el procedimiento científico, y
es que todas las ciencias están construidas sobre clasificaciones que
permiten estructurar su dominio de investigación.
Cluster
• Un cluster es un grupo homogéneo.
• Un conjunto de datos/objetos que son similares unos con otros y que
son tratados como un grupo.
• Análisis de Cluster se ocupa de la partición en cluster de un set de
datos
• No son procedimientos basados en modelos probabilísticos. Son
métodos que esencialmente utilizan el concepto de proximidad.
Aplicaciones
• Biología – encontrar agrupaciones de genes con patrones similares
• Marketing – dividir la población de consumidores en segmentos de
mercado
• Separar páginas web en géneros.
• Imagen– para reconocer objetos
• Uso de la tierra – Identificar áreas con usos similares a partir de
imágenes de satélite
• Seguros – Identificar grupos de asegurados con alto costo promedio
de reclamaciones
Análisis de Cluster: etapas
• Selección de las variables: características que describen a los
individuos
• Selección de la Medida de Distancia o Similaridad individuos
(proximidad viene expresada como distancias), variables (viene
expresada como coeficientes que miden la relación).
• Selección de la Técnica Clúster: gran cantidad de técnicas diferentes
Parámetros del Análisis de Cluster
• Centroide – centro euclídeo
• Radio – distancia promedio al centro
• Diámetro – distancia promedio entre pares dentro de un Cluster
• Coste Computacional:
Es rápido y eficiente en términos de coste computacional
• Supuestos:
Trabaja adecuadamente aunque no se verifiquen los supuestos
de partida
Desventajas de K-Means
Es sensible a la existencia de outliers
Trabaja con datos numéricos
K-Means converge, pero encuentra mínimos locales de la función de coste. Es
sensible con la inicialización, No existe una solución única para un número K de
clusters
Produce clusters de tamaño similar, aunque los datos de entrada tengan diferente
tamaño de cluster.
Todos las unidades/objetos tienen que pertenecer a un cluster
No puede determinar clusters no convexos o clusters con formas inusuales
¿Y si la media no es la medida de tendencia central adecuada?
K-Medias no funciona bien cuando los
clusters son:
• De distinto tamaño
• Diferente densidad
• No convexos
Numero de clusters recomendado
Diferentes contribuciones
• K-MEDOIDS (Vinod, 1969, Kaufman & Rousseeuw, 1990)
• K-MEDIAS DIFUSA (Dunn, 1973 ; Bezdek, Ehrlich & Full, 1984)
• K-MEDIAS RECORTADAS (Cuesta-Alberto et al., 1997)
• K-ARMÓNICA MEDIAS (Hammerly y Elkan, 2002)
• K-MEDIAS SPARSE (Witten y Tibshirani, 2010)
• K-MEDIANA (MacQueen , 1967)
Aplicación en biología
• La aplicación del análisis de clusters esta dirigido al conjunto de
muestras que representan el objetivo de estudio, estas pueden ser:
• Secuencias alineadas
• Matrices de expresión
• Datos cuantitativos relacionados a las secuencias
Buscamos grupos, determinar como se
agrupan los datos
Buscamos grupos, determinar como se
agrupan los datos
¿Qué quiere decir encontrar grupos?
• Se trata de clasificar las observaciones en grupos de modo que las
observaciones de un mismo grupo sean lo más similares que
podamos y que los grupos entre sí sean muy distintos.
• La mayor parte de ellos no tienen un modelo probabilístico debajo, no
son procedimientos basados en modelo.
• Son métodos que esencialmente utilizan el concepto de proximidad.
Modelos y técnicas
• procedimientos jerárquicos
• y métodos de particionamiento.
Ejercicios
• Ejercicio base
• Características de suelo