0% encontró este documento útil (0 votos)
48 vistas84 páginas

11 Análisis Conglomerado

Cargado por

delvis24299
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
48 vistas84 páginas

11 Análisis Conglomerado

Cargado por

delvis24299
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA E INFORMÁTICA

Estadística Aplicada a la Economía y Negocios II

Unidad VII
Análisis conglomerados

Mg. Samuel Huamaní Flores

shuamani@[Link]
Introducción
Conceptos básicos
Referencias

Contenido

1 Introducción
2 Conceptos básicos del análisis conglomerado.
3 Clasificación de análisis conglomerado.
4 Ejemplos de casos prácticos.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Conceptos básicos
Referencias

Logro de la clase

1 Identifica los conceptos básicos del análisis de conglomerados


2 Identifica y aplica las principales medidas de distancia en el análisis
3 Resuelve ejercicios aplicativos

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Conceptos básicos
Referencias

Análisis conglomerado

Clasificación de variables
1 Tipo de método: Interdependencia.
2 Objetivo:
Clasificar distintas observaciones(individuos) en grupos.
3 Tipo de variables: cuantitativas o binarias

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Conceptos básicos
Referencias

Análisis de conglomerados

Aplicaciones
Reconocimiento de formas.
Marketing: Segmentación de clientes de acuerdo con perfiles de consumo.
Clasificación de ciudades de acuerdo con variables físicas, demográficas y económicas, entre otros.
Clasificación de individuos respecto a su personalidad.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Conceptos básicos ¿Qué es?
Referencias

Análisis de conglomerados
¿Qué es el análisis conglomerados?
Es una técnica multivariante cuyo principal objetivo es agrupar objetos formando conglomerados (clusters) con
un alto grado de homogeneidad interna y heterogeneidad externa.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Conceptos básicos ¿Qué es?
Referencias

Análisis de conglomerados
¿Qué hace el análisis conglomerados?
Meta: Identificar grupos de tal forma que los objetos en un grupo sean similares entre ellos y diferentes de
los objetos de otros grupos.
Hipótesis: que los objetos que se incluyan dentro de un mismo grupo tendrán características más
similares entre sí que con otros grupos.

Maximizar
Minimizar distancias inter
distancias intra clusters
clusters

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Conceptos básicos ¿Qué es?
Referencias

Proceso de realización del Análisis conglomerados

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de distancia
Medidas de similaridad para datos métricos o datos binarios
Medidas de disimilaridad

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos métricos

Distancia Euclídea
Considerando dos observaciones i y j y si xip y xjp corresponden al valor que toma la variable xp , la distancia
euclídea entre ambas será: v
u k
uX
Dij = t (xip − xjp )2
p=1

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos métricos

Distancia Euclídea al cuadrado


Considerando dos observaciones i y j y si xip y xjp corresponden al valor que toma la variable xp , la distancia
euclídea entre ambas será:
X k
Dij = (xip − xjp )2
p=1

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos métricos

Distancia de Minkowski
Las dos distancias descritos anteriormente son un caso particular de la distancia Minkowski, que viene dada por
la expresión:
Xk
Dij = [ |xip − xjp |n ]1/n
p=1

Si n = 2 entonces se obtiene la expresión correspondiente a la distancia euclídea.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos métricos

Distancia de Manhattan
k
X
Dij = |xip − xjp |n
p=1

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos binarios

Base de datos hipotética

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos binarios

Cálculo de similitudes

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos binarios


Índice de Jaccard
r
a
1−[ ]
a+b+c

Coeficiente de Sokal y Michener


r
a+d
1−[ ]
a+b+c+d

Coeficiente de Sokal y Sneath


r
a
1−[ ]
a + 2(b + c)

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos binarios

Coeficiente de Rogers y Tanimoto


s
a+d
1−[ ]
a + 2(b + c) + d

Coeficiente de Dice o Sorenson


r
2a
1−( )
2a + b + c

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Estandarización

Las medidas de similaridad son sensibles a diferentes unidades de medida de las variables. Para evitar la influen-
cia no deseable debida a la unidad de la variable, es necesario corregir el efecto mediante la estandarización.

X − E(X)
Z=
σ

Donde: E(Z) = 0 y V ar(Z) = 1

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Machine Learning
Transformación de variables
Antes de estandarizar a veces es mejor transformar los datos.
Transformaciones recomendadas

Distribución
de variables Distribución de
sin variables
transformar Transformadas

[Link] Aldo Meza Rodriguez

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clasificación de análisis conglomerado


1 Clustering no jerárquico
2 Clustering jerárquico tradicional

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clasificación de análisis conglomerado

p1
p3 p4

p2

Clustering jerárquico tradicional

p1 p2 p3 p4
Puntos originales Clustering particional o
Clustering no jerárquico Dendrograma

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

K-MEANS
Cada grupo está representado por el centro o medio de los puntos de datos que
pertenecen al clúster.

PAM
Cada cluster está representado por uno de los objetos del cluster Alternativa “no
paramétrica” k means.

CLARA
Es una variante de PAM (Clustering Large Applications) para analizar grandes
conjuntos de datos.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

El Algoritmo K means
Es un algoritmo de agrupamiento por particiones el cual requiere especificar un número K de Clústers.
El algoritmo asignará cada observación exactamente a un clúster y cada clúster tiene asociado un
centroide (centro geométrico del clúster)
Los puntos se asignan al clúster cuyo centroide esté más cerca (utilizando cualquier métrica de distancia)
Esta basado en la minimización de la suma de cuadrados dentro de cada clúster (variación). Es
computacionalmente rápido.
Iterativamente, se van actualizando los centroides en función de las asignaciones de puntos a clúster,
hasta que los centroides dejen de cambiar.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias
Machine Learning
Procedimiento K mens
Procedimiento K-mens
Selecciona aleatoriamento Asignar cada caso al Actualizar los centroides
K=2 cluster como centroides cluster más cercano

Resignar cada
observación
Resignar

Actualizar los
centroides

[Link] Aldo Meza Rodriguez

Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

El Algoritmo K means: Ventajas y desventajas


Es computacionalmente rápido.
Simple, eficiente y general.
El resultado puede variar en base a las semillas elegidas al inicio.
Es sensible a la elección de los centroides iniciales.
No siempre puede solucionarse con múltiples inicializaciones.
Es sensible a los outliers.
No trata datos nominales

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

El algoritmo de PAM
PAM es el algoritmo de particionamiento alrededor de medioides el cual requiere especificar un número K
de Clústers.
El objetivo es encontrar medoides de modo que la disimilaridad total de todas las observaciones con
respecto a su medoide mas cercano sea mínima.
Un medioide es una observación de los datos. Una vez encontrados los medioides se construyen k
clústers asignandos.
Intercambia pares de objetos para que disminuya la función objetivo lo más posible.
Utiliza medianas en vez de medias para limitar la influencia de los outliers.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento de PAM: K Medoides

Total Cost = 20

Escoger Asignar las


arbitrariamente k observaciones
observaciones restantes a sus
como medioides medioides más
cercanos

Seleccionar al azar una


Total Cost = 26 observación no medoide

Continuar hasta
no encontrar
algún cambio
Calcular el costo
total de swapping

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

El Algoritmo de PAM: Ventajas y desventajas


No es sensiblea “outliers”
Mejora la calidad del clúster.
Puede trabajar con variables cualitativas.
Posee un costo computacional alto. No recomendable a una gran cantidad de datos.
El algoritmo PAM necesita construir la matriz de dismilaridades completa, por lo que para conjuntos de
datos grandes se puede volver impráctico.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

El Algoritmo CLARA
Es una extensión del PAM adaptada para base de datos grandes. Divide aleatoriamente los conjuntos de
datos en múltiples subconjuntos con tamaño fijo.
En lugar de encontrar medoides para todo el conjunto de datos, considera una pequeña muestra de los
datos con tamaño fijo y aplica el algoritmo PAM para generar un conjunto óptimo de medoides para la
muestra.
Calcule la media (o la suma) de las diferencias de las observaciones a su medoide más cercano.
Los resultados finales de la agrupación corresponden al conjunto de medoides con un mínimo costo.
CLARA no considera la matriz de dismilaridades completa.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

¿Cuántos clústers se debe extraer?


El número de clústers se debe extrae teniendo en cuenta:
1 Cohesión: Un elemento de un clúster debe ser lo más cercano posible a los otros elementos del mismo
clúster.
2 Separación: Los clústeres deben estar muy separados entre ellos.

Cohesión Separación

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

¿Cuántos clústers se debe extraer?


Existen 30 métodos para extraer el número de clústers, entre los más principales son:
1 Cohesión: Se mide por la suma de cuadrados dentro del grupo (WSS). El método también es conocido
como Elbow.
2 Separación: La separación se mide por la suma de cuadrados entre los grupos (BSS)
3 El coeficiente de Silueta: combina ideas de cohesión y separación, pero para puntos individuales. Mide
la calidad de una agrupación, es decir, determina qué tan bien se encuentra cada objeto dentro de su
clúster. Un alto ancho de silueta promedio indica un buen agrupamiento.
4 Estadística GAP: compara el total de la variación dentro del cluster para diferentes valores de k con sus
valores esperados bajo la distribución de referencia nula de los datos. La estimación de los clústeres
óptimos será un valor que maximice la estadística de Gap.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

Métodos de extracción del número de clústers.

Valor máximo Se basa en WSS Busca maximizar la separación


entre grupos

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]


The Elbow Method
Método de extracción Elbow.

© SuperDataScience

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]


The Elbow Method

Método de extracción Elbow.

Within Cluster Sum of Squares:

...

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]


The Elbow Method
Método de extracción Elbow.

© SuperDataScience

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]


The Elbow
Método de extracción Method
Elbow.

C1
Cluster 1

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
TheThe Elbow
Elbow Method
Method
Método de extracción Elbow.

C1 C1 Cluster 2 2
Cluster
Cluster 1 1
Cluster C2 C2

© SuperDataScience
© SuperDataScience
Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]


The Elbow Method
Método de extracción Elbow.

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]


The Elbow Method
C2 Cluster 2

C1 C2 Cluster 2
Cluster 1
C1
Cluster 1

Cluster 3
C3
Cluster 3
C3

© SuperDataScience
© SuperDataScience
Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]


Clústers
Thebasados
Elbow en particiones
Method
Método de extracción Elbow. The Elbow Method

Optimal number of clusters

© SuperDataScience

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones


Validación para elegir el mejor método cluster
Medidas internas
Índice de Conectividad: Indica el grado de conexión de clústeres determinados por el vecino más
cercano. (Lo ideal es que su valor sea mínimo)
Índice de Dunn: Este índice compara las distancias inter grupos con el tamaño del grupo más disperso.
(Se busca el valor máximo)
Coeficiente de silueta: Mide qué tan bien se agrupa una observación y estima la distancia promedio
entre los conglomerados. (Se busca el valor máximo)
Medidas de estabilidad
La proporción promedio de no superposición (APN)
La distancia promedio (AD)
La distancia promedio entre medias (ADM)
La figura del mérito (FOM)
Los valores de APN, ADM y FOM varían de 0 a 1 y el valor más pequeño corresponde a los resultados de
agrupamiento altamente consistentes AD tiene un valor entre 0 e infinito, y también se prefieren valores más
pequeños.
Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

Ejemplo 1
DATA CALIDAD
Es una base de datos que muestra el puntaje en calidad de atención que se le da a asesores comerciales
después de su atención. Las variables y descripción son las siguientes:
ID: Código
Amab: Amabilidad de atención
Interes: Interés en el problema
Capa: Capaciad para resolver el problema
Clari: Claridad de información
Tiemp: Tiempo de atención
Soluc: Solución del problema

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico tradicional


1 Aglomerativo: Inicialmente cada observación es un conglomerado.
2 Divisivos: Inicialmente todas las observaciones están en solo conglomerado.
En estos algoritmos se generan sucesiones ordenadas (jerarquias) de conglomerados. Puede ser juntando cluster
pequeños en mas grande o dividiendo grandes clusters en otros mas pequeños. La estructura jerárquica es
representada en forma de un árbol y es llamada Dendograma.
El método jerárquico usa matriz de distancias o de similitudes.

Mg. Samuel Huamaní Flores Análisis conglomerados


OT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo


Consider the following dataset of N = 6 data points
Consideremos el siguiente conjunto de datos de N = 6 puntos de datos

Mg. Samuel Huamaní Flores Análisis conglomerados


OT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo


STEP 1: Make each data point a single-point cluster That forms 6 clusters
PASO 1: Hacer de cada punto de datos un conglomerado de un solo punto ⇒ Eso forma 6 conglomerados

Mg. Samuel Huamaní Flores Análisis conglomerados


NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo


STEP
PASO 2: Take
2: Tome los dos the two
puntos closest
de datos data points
más cercanos andenmake
y conviértalos them
un clúster ⇒ Asíone cluster
se forman 5
conglomerados That forms 5 clusters

Mg. Samuel Huamaní Flores Análisis conglomerados


OT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo


STEP 3: Take the two closest clusters and make them one cluster
That forms
PASO 3: Toma los dos clusters más cercanos 4 clusters
y conviértelos en un cluster ⇒ Así se forman 4 conglomerados.

Mg. Samuel Huamaní Flores Análisis conglomerados


OT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo


STEP 4: Repeat STEP 3 until there is only one cluster
PASO 4: Repita el PASO 3 hasta que sólo haya un cluster.

Mg. Samuel Huamaní Flores Análisis conglomerados


OT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo


STEP 4: Repeat STEP 3 until there is only one cluster
PASO 4: Repita el PASO 3 hasta que sólo haya un cluster.

Mg. Samuel Huamaní Flores Análisis conglomerados


FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo


STEP 4: Repeat STEP 3 until there is only one cluster
PASO 4: Repita el PASO 3 hasta que sólo haya un cluster.

FIN

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P3

P2

P1
P4
z
P5

P6

P1 P2 P3 P4 P5 P6

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P3

P2

P1
P4
z
P5

P6

P1 P2 P3 P4 P5 P6
Machine Learning A-Z © SuperDataScience

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P3

P2

P1
P4
z
P5

P6

P1 P2 P3 P4 P5 P6
Machine Learning A-Z © SuperDataScience

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P3

P2

P1
P4
z
P5

P6

P1 P2 P3 P4 P5 P6
Machine Learning A-Z © SuperDataScience

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P3

P2

P1
P4
z
P5

P6

P1 P2 P3 P4 P5 P6
Machine Learning A-Z © SuperDataScience

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P3

P2

P1
P4

P5

P6

P1 P2 P3 P4 P5 P6
Machine Learning A-Z © SuperDataScience

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cuántos clusters se escogerá?

2 Clústers

P3

P2

P1 2 clusters
P4

P5

P6

Machine Learning A-Z © SuperDataScience


Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cuántos clusters se escogerá?

4 Clústers

P3

P2

P1
P4

P5

4 clusters
P6

Machine Learning A-Z © SuperDataScience


Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cuántos clusters se escogerá?

6 Clústers

P3

P2

P1
P4

P5

P6

6 clusters

Machine Learning A-Z © SuperDataScience


Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cuántos clusters se escogerá?

Número óptimo de clusters

P3

P2

Largest distance
2 clusters
P1
P4

P5

P6

Machine Learning A-Z © SuperDataScience


Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Búsqueda de similitud entre los clusters

Vecino más cercano (single) Enlace promedio (average)

Distancia
mínima Distancia promedio
Conglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2

Vecino más lejano (completo) Enlace ward (Ward.D2)

Distancia máxima
Conglomerado 1 Conglomerado 2

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico

Coeficiente de aglomeración
Permite medir la estructura de conglomerados de un conjunto de datos.
Los valores más cercanos a 1 sugieren una estructura de agrupación fuerte.
Cuando el conjunto de datos posee una clara estructura de conglomerados, se espera que las
disimilaridades entre conglomerados sean mucho mas grandes que las disimilaridades dentro de los
conglomerados.

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico
Ejemplo 2
DATA DEPARTAMENTOS
Es una base con todos los departamentos del Perú, sobre tasas y variables relacionadas a la calidad de vida.
Las variables en estudio son las siguientes.
Departamento: Departamentos
Tinic: Tasa de educación inicial
Tprim: Tasa de educación primaria
Tsec: Tasa de educación secundaria
TDesn: Tasa de desnutrición
Tefic: Tasa de eficiencia educativa
Inter: Internet cada 100 habitantes
TAnalf: Tasa de analfabetismo
Tmort: Tasa de mortalidad
EVida: Esperanza de vida

Mg. Samuel Huamaní Flores Análisis conglomerados


Introducción
Conceptos básicos
Referencias

Referencias

Aldás Manzano, J. & Uriel Jiménez, E. (2017). Análisis multivariante aplicado con R. Ediciones Paraninfo, SA.

Mg. Samuel Huamaní Flores Análisis conglomerados

También podría gustarte