11 Análisis Conglomerado
11 Análisis Conglomerado
Unidad VII
Análisis conglomerados
shuamani@[Link]
Introducción
Conceptos básicos
Referencias
Contenido
1 Introducción
2 Conceptos básicos del análisis conglomerado.
3 Clasificación de análisis conglomerado.
4 Ejemplos de casos prácticos.
Logro de la clase
Análisis conglomerado
Clasificación de variables
1 Tipo de método: Interdependencia.
2 Objetivo:
Clasificar distintas observaciones(individuos) en grupos.
3 Tipo de variables: cuantitativas o binarias
Análisis de conglomerados
Aplicaciones
Reconocimiento de formas.
Marketing: Segmentación de clientes de acuerdo con perfiles de consumo.
Clasificación de ciudades de acuerdo con variables físicas, demográficas y económicas, entre otros.
Clasificación de individuos respecto a su personalidad.
Análisis de conglomerados
¿Qué es el análisis conglomerados?
Es una técnica multivariante cuyo principal objetivo es agrupar objetos formando conglomerados (clusters) con
un alto grado de homogeneidad interna y heterogeneidad externa.
Análisis de conglomerados
¿Qué hace el análisis conglomerados?
Meta: Identificar grupos de tal forma que los objetos en un grupo sean similares entre ellos y diferentes de
los objetos de otros grupos.
Hipótesis: que los objetos que se incluyan dentro de un mismo grupo tendrán características más
similares entre sí que con otros grupos.
Maximizar
Minimizar distancias inter
distancias intra clusters
clusters
Medidas de distancia
Medidas de similaridad para datos métricos o datos binarios
Medidas de disimilaridad
Distancia Euclídea
Considerando dos observaciones i y j y si xip y xjp corresponden al valor que toma la variable xp , la distancia
euclídea entre ambas será: v
u k
uX
Dij = t (xip − xjp )2
p=1
Distancia de Minkowski
Las dos distancias descritos anteriormente son un caso particular de la distancia Minkowski, que viene dada por
la expresión:
Xk
Dij = [ |xip − xjp |n ]1/n
p=1
Distancia de Manhattan
k
X
Dij = |xip − xjp |n
p=1
Cálculo de similitudes
Estandarización
Las medidas de similaridad son sensibles a diferentes unidades de medida de las variables. Para evitar la influen-
cia no deseable debida a la unidad de la variable, es necesario corregir el efecto mediante la estandarización.
X − E(X)
Z=
σ
Machine Learning
Transformación de variables
Antes de estandarizar a veces es mejor transformar los datos.
Transformaciones recomendadas
Distribución
de variables Distribución de
sin variables
transformar Transformadas
p1
p3 p4
p2
p1 p2 p3 p4
Puntos originales Clustering particional o
Clustering no jerárquico Dendrograma
K-MEANS
Cada grupo está representado por el centro o medio de los puntos de datos que
pertenecen al clúster.
PAM
Cada cluster está representado por uno de los objetos del cluster Alternativa “no
paramétrica” k means.
CLARA
Es una variante de PAM (Clustering Large Applications) para analizar grandes
conjuntos de datos.
El Algoritmo K means
Es un algoritmo de agrupamiento por particiones el cual requiere especificar un número K de Clústers.
El algoritmo asignará cada observación exactamente a un clúster y cada clúster tiene asociado un
centroide (centro geométrico del clúster)
Los puntos se asignan al clúster cuyo centroide esté más cerca (utilizando cualquier métrica de distancia)
Esta basado en la minimización de la suma de cuadrados dentro de cada clúster (variación). Es
computacionalmente rápido.
Iterativamente, se van actualizando los centroides en función de las asignaciones de puntos a clúster,
hasta que los centroides dejen de cambiar.
Resignar cada
observación
Resignar
Actualizar los
centroides
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
Procedimiento K mens
El algoritmo de PAM
PAM es el algoritmo de particionamiento alrededor de medioides el cual requiere especificar un número K
de Clústers.
El objetivo es encontrar medoides de modo que la disimilaridad total de todas las observaciones con
respecto a su medoide mas cercano sea mínima.
Un medioide es una observación de los datos. Una vez encontrados los medioides se construyen k
clústers asignandos.
Intercambia pares de objetos para que disminuya la función objetivo lo más posible.
Utiliza medianas en vez de medias para limitar la influencia de los outliers.
Total Cost = 20
Continuar hasta
no encontrar
algún cambio
Calcular el costo
total de swapping
El Algoritmo CLARA
Es una extensión del PAM adaptada para base de datos grandes. Divide aleatoriamente los conjuntos de
datos en múltiples subconjuntos con tamaño fijo.
En lugar de encontrar medoides para todo el conjunto de datos, considera una pequeña muestra de los
datos con tamaño fijo y aplica el algoritmo PAM para generar un conjunto óptimo de medoides para la
muestra.
Calcule la media (o la suma) de las diferencias de las observaciones a su medoide más cercano.
Los resultados finales de la agrupación corresponden al conjunto de medoides con un mínimo costo.
CLARA no considera la matriz de dismilaridades completa.
Cohesión Separación
© SuperDataScience
...
© SuperDataScience
C1
Cluster 1
C1 C1 Cluster 2 2
Cluster
Cluster 1 1
Cluster C2 C2
© SuperDataScience
© SuperDataScience
Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias
C1 C2 Cluster 2
Cluster 1
C1
Cluster 1
Cluster 3
C3
Cluster 3
C3
© SuperDataScience
© SuperDataScience
Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias
© SuperDataScience
Ejemplo 1
DATA CALIDAD
Es una base de datos que muestra el puntaje en calidad de atención que se le da a asesores comerciales
después de su atención. Las variables y descripción son las siguientes:
ID: Código
Amab: Amabilidad de atención
Interes: Interés en el problema
Capa: Capaciad para resolver el problema
Clari: Claridad de información
Tiemp: Tiempo de atención
Soluc: Solución del problema
FIN
P3
P2
P1
P4
z
P5
P6
P1 P2 P3 P4 P5 P6
P3
P2
P1
P4
z
P5
P6
P1 P2 P3 P4 P5 P6
Machine Learning A-Z © SuperDataScience
P3
P2
P1
P4
z
P5
P6
P1 P2 P3 P4 P5 P6
Machine Learning A-Z © SuperDataScience
P3
P2
P1
P4
z
P5
P6
P1 P2 P3 P4 P5 P6
Machine Learning A-Z © SuperDataScience
P3
P2
P1
P4
z
P5
P6
P1 P2 P3 P4 P5 P6
Machine Learning A-Z © SuperDataScience
P3
P2
P1
P4
P5
P6
P1 P2 P3 P4 P5 P6
Machine Learning A-Z © SuperDataScience
2 Clústers
P3
P2
P1 2 clusters
P4
P5
P6
4 Clústers
P3
P2
P1
P4
P5
4 clusters
P6
6 Clústers
P3
P2
P1
P4
P5
P6
6 clusters
P3
P2
Largest distance
2 clusters
P1
P4
P5
P6
Distancia
mínima Distancia promedio
Conglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2
Distancia máxima
Conglomerado 1 Conglomerado 2
Clustering jerárquico
Coeficiente de aglomeración
Permite medir la estructura de conglomerados de un conjunto de datos.
Los valores más cercanos a 1 sugieren una estructura de agrupación fuerte.
Cuando el conjunto de datos posee una clara estructura de conglomerados, se espera que las
disimilaridades entre conglomerados sean mucho mas grandes que las disimilaridades dentro de los
conglomerados.
Clustering jerárquico
Ejemplo 2
DATA DEPARTAMENTOS
Es una base con todos los departamentos del Perú, sobre tasas y variables relacionadas a la calidad de vida.
Las variables en estudio son las siguientes.
Departamento: Departamentos
Tinic: Tasa de educación inicial
Tprim: Tasa de educación primaria
Tsec: Tasa de educación secundaria
TDesn: Tasa de desnutrición
Tefic: Tasa de eficiencia educativa
Inter: Internet cada 100 habitantes
TAnalf: Tasa de analfabetismo
Tmort: Tasa de mortalidad
EVida: Esperanza de vida
Referencias
Aldás Manzano, J. & Uriel Jiménez, E. (2017). Análisis multivariante aplicado con R. Ediciones Paraninfo, SA.