0% encontró este documento útil (0 votos)

48 vistas84 páginas

11 Análisis Conglomerado

Cargado por

delvis24299

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

48 vistas84 páginas

11 Análisis Conglomerado

Cargado por

delvis24299

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD NACIONAL AGRARIA LA MOLINA

DEPARTAMENTO ACADÉMICO DE ESTADÍSTICA E INFORMÁTICA

Estadística Aplicada a la Economía y Negocios II

Unidad VII
Análisis conglomerados

Mg. Samuel Huamaní Flores

shuamani@[Link]
Introducción
Conceptos básicos
Referencias

Contenido

1 Introducción
2 Conceptos básicos del análisis conglomerado.
3 Clasificación de análisis conglomerado.
4 Ejemplos de casos prácticos.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Conceptos básicos
Referencias

Logro de la clase

1 Identifica los conceptos básicos del análisis de conglomerados

2 Identifica y aplica las principales medidas de distancia en el análisis
3 Resuelve ejercicios aplicativos

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Conceptos básicos
Referencias

Análisis conglomerado

Clasificación de variables
1 Tipo de método: Interdependencia.
2 Objetivo:
Clasificar distintas observaciones(individuos) en grupos.
3 Tipo de variables: cuantitativas o binarias

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Conceptos básicos
Referencias

Análisis de conglomerados

Aplicaciones
Reconocimiento de formas.
Marketing: Segmentación de clientes de acuerdo con perfiles de consumo.
Clasificación de ciudades de acuerdo con variables físicas, demográficas y económicas, entre otros.
Clasificación de individuos respecto a su personalidad.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Conceptos básicos ¿Qué es?
Referencias

Análisis de conglomerados
¿Qué es el análisis conglomerados?
Es una técnica multivariante cuyo principal objetivo es agrupar objetos formando conglomerados (clusters) con
un alto grado de homogeneidad interna y heterogeneidad externa.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Conceptos básicos ¿Qué es?
Referencias

Análisis de conglomerados
¿Qué hace el análisis conglomerados?
Meta: Identificar grupos de tal forma que los objetos en un grupo sean similares entre ellos y diferentes de
los objetos de otros grupos.
Hipótesis: que los objetos que se incluyan dentro de un mismo grupo tendrán características más
similares entre sí que con otros grupos.

Maximizar
Minimizar distancias inter
distancias intra clusters
clusters

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Conceptos básicos ¿Qué es?
Referencias

Proceso de realización del Análisis conglomerados

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de distancia
Medidas de similaridad para datos métricos o datos binarios
Medidas de disimilaridad

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos métricos

Distancia Euclídea
Considerando dos observaciones i y j y si xip y xjp corresponden al valor que toma la variable xp , la distancia
euclídea entre ambas será: v
u k
uX
Dij = t (xip − xjp )2
p=1

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos métricos

Distancia Euclídea al cuadrado

Considerando dos observaciones i y j y si xip y xjp corresponden al valor que toma la variable xp , la distancia
euclídea entre ambas será:
X k
Dij = (xip − xjp )2
p=1

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos métricos

Distancia de Minkowski
Las dos distancias descritos anteriormente son un caso particular de la distancia Minkowski, que viene dada por
la expresión:
Xk
Dij = [ |xip − xjp |n ]1/n
p=1

Si n = 2 entonces se obtiene la expresión correspondiente a la distancia euclídea.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos métricos

Distancia de Manhattan
k
X
Dij = |xip − xjp |n
p=1

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos binarios

Base de datos hipotética

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos binarios

Cálculo de similitudes

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos binarios

Índice de Jaccard
r
a
1−[ ]
a+b+c

Coeficiente de Sokal y Michener

r
a+d
1−[ ]
a+b+c+d

Coeficiente de Sokal y Sneath

r
a
1−[ ]
a + 2(b + c)

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Medidas de similaridad para datos binarios

Coeficiente de Rogers y Tanimoto

s
a+d
1−[ ]
a + 2(b + c) + d

Coeficiente de Dice o Sorenson

r
2a
1−( )
2a + b + c

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Estandarización

Las medidas de similaridad son sensibles a diferentes unidades de medida de las variables. Para evitar la influen-
cia no deseable debida a la unidad de la variable, es necesario corregir el efecto mediante la estandarización.

X − E(X)
Z=
σ

Donde: E(Z) = 0 y V ar(Z) = 1

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Machine Learning
Transformación de variables
Antes de estandarizar a veces es mejor transformar los datos.
Transformaciones recomendadas

Distribución
de variables Distribución de
sin variables
transformar Transformadas

[Link] Aldo Meza Rodriguez

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clasificación de análisis conglomerado

1 Clustering no jerárquico
2 Clustering jerárquico tradicional

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clasificación de análisis conglomerado

p1
p3 p4

Clustering jerárquico tradicional

p1 p2 p3 p4
Puntos originales Clustering particional o
Clustering no jerárquico Dendrograma

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

K-MEANS
Cada grupo está representado por el centro o medio de los puntos de datos que
pertenecen al clúster.

PAM
Cada cluster está representado por uno de los objetos del cluster Alternativa “no
paramétrica” k means.

CLARA
Es una variante de PAM (Clustering Large Applications) para analizar grandes
conjuntos de datos.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

El Algoritmo K means
Es un algoritmo de agrupamiento por particiones el cual requiere especificar un número K de Clústers.
El algoritmo asignará cada observación exactamente a un clúster y cada clúster tiene asociado un
centroide (centro geométrico del clúster)
Los puntos se asignan al clúster cuyo centroide esté más cerca (utilizando cualquier métrica de distancia)
Esta basado en la minimización de la suma de cuadrados dentro de cada clúster (variación). Es
computacionalmente rápido.
Iterativamente, se van actualizando los centroides en función de las asignaciones de puntos a clúster,
hasta que los centroides dejen de cambiar.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias
Machine Learning
Procedimiento K mens
Procedimiento K-mens
Selecciona aleatoriamento Asignar cada caso al Actualizar los centroides
K=2 cluster como centroides cluster más cercano

Resignar cada
observación
Resignar

Actualizar los
centroides

[Link] Aldo Meza Rodriguez

Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
K-Means Clustering
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento K mens

SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

El Algoritmo K means: Ventajas y desventajas

Es computacionalmente rápido.
Simple, eficiente y general.
El resultado puede variar en base a las semillas elegidas al inicio.
Es sensible a la elección de los centroides iniciales.
No siempre puede solucionarse con múltiples inicializaciones.
Es sensible a los outliers.
No trata datos nominales

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

El algoritmo de PAM
PAM es el algoritmo de particionamiento alrededor de medioides el cual requiere especificar un número K
de Clústers.
El objetivo es encontrar medoides de modo que la disimilaridad total de todas las observaciones con
respecto a su medoide mas cercano sea mínima.
Un medioide es una observación de los datos. Una vez encontrados los medioides se construyen k
clústers asignandos.
Intercambia pares de objetos para que disminuya la función objetivo lo más posible.
Utiliza medianas en vez de medias para limitar la influencia de los outliers.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Procedimiento de PAM: K Medoides

Total Cost = 20

Escoger Asignar las

arbitrariamente k observaciones
observaciones restantes a sus
como medioides medioides más
cercanos

Seleccionar al azar una

Total Cost = 26 observación no medoide

Continuar hasta
no encontrar
algún cambio
Calcular el costo
total de swapping

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

El Algoritmo de PAM: Ventajas y desventajas

No es sensiblea “outliers”
Mejora la calidad del clúster.
Puede trabajar con variables cualitativas.
Posee un costo computacional alto. No recomendable a una gran cantidad de datos.
El algoritmo PAM necesita construir la matriz de dismilaridades completa, por lo que para conjuntos de
datos grandes se puede volver impráctico.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

El Algoritmo CLARA
Es una extensión del PAM adaptada para base de datos grandes. Divide aleatoriamente los conjuntos de
datos en múltiples subconjuntos con tamaño fijo.
En lugar de encontrar medoides para todo el conjunto de datos, considera una pequeña muestra de los
datos con tamaño fijo y aplica el algoritmo PAM para generar un conjunto óptimo de medoides para la
muestra.
Calcule la media (o la suma) de las diferencias de las observaciones a su medoide más cercano.
Los resultados finales de la agrupación corresponden al conjunto de medoides con un mínimo costo.
CLARA no considera la matriz de dismilaridades completa.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

¿Cuántos clústers se debe extraer?

El número de clústers se debe extrae teniendo en cuenta:
1 Cohesión: Un elemento de un clúster debe ser lo más cercano posible a los otros elementos del mismo
clúster.
2 Separación: Los clústeres deben estar muy separados entre ellos.

Cohesión Separación

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

¿Cuántos clústers se debe extraer?

Existen 30 métodos para extraer el número de clústers, entre los más principales son:
1 Cohesión: Se mide por la suma de cuadrados dentro del grupo (WSS). El método también es conocido
como Elbow.
2 Separación: La separación se mide por la suma de cuadrados entre los grupos (BSS)
3 El coeficiente de Silueta: combina ideas de cohesión y separación, pero para puntos individuales. Mide
la calidad de una agrupación, es decir, determina qué tan bien se encuentra cada objeto dentro de su
clúster. Un alto ancho de silueta promedio indica un buen agrupamiento.
4 Estadística GAP: compara el total de la variación dentro del cluster para diferentes valores de k con sus
valores esperados bajo la distribución de referencia nula de los datos. La estimación de los clústeres
óptimos será un valor que maximice la estadística de Gap.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

Métodos de extracción del número de clústers.

Valor máximo Se basa en WSS Busca maximizar la separación

entre grupos

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]

The Elbow Method
Método de extracción Elbow.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]

The Elbow Method

Método de extracción Elbow.

Within Cluster Sum of Squares:

...

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]

The Elbow Method
Método de extracción Elbow.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]

The Elbow
Método de extracción Method
Elbow.

C1
Cluster 1

© SuperDataScience Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
TheThe Elbow
Elbow Method
Method
Método de extracción Elbow.

C1 C1 Cluster 2 2
Cluster
Cluster 1 1
Cluster C2 C2

© SuperDataScience
© SuperDataScience
Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]

The Elbow Method
Método de extracción Elbow.

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]

The Elbow Method
C2 Cluster 2

C1 C2 Cluster 2
Cluster 1
C1
Cluster 1

Cluster 3
C3
Cluster 3
C3

© SuperDataScience
© SuperDataScience
Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers
Thebasados
Elbow en particiones
Method
Método de extracción Elbow. The Elbow Method

Optimal number of clusters

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

Validación para elegir el mejor método cluster
Medidas internas
Índice de Conectividad: Indica el grado de conexión de clústeres determinados por el vecino más
cercano. (Lo ideal es que su valor sea mínimo)
Índice de Dunn: Este índice compara las distancias inter grupos con el tamaño del grupo más disperso.
(Se busca el valor máximo)
Coeficiente de silueta: Mide qué tan bien se agrupa una observación y estima la distancia promedio
entre los conglomerados. (Se busca el valor máximo)
Medidas de estabilidad
La proporción promedio de no superposición (APN)
La distancia promedio (AD)
La distancia promedio entre medias (ADM)
La figura del mérito (FOM)
Los valores de APN, ADM y FOM varían de 0 a 1 y el valor más pequeño corresponde a los resultados de
agrupamiento altamente consistentes AD tiene un valor entre 0 e infinito, y también se prefieren valores más
pequeños.
Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clústers basados en particiones

Ejemplo 1
DATA CALIDAD
Es una base de datos que muestra el puntaje en calidad de atención que se le da a asesores comerciales
después de su atención. Las variables y descripción son las siguientes:
ID: Código
Amab: Amabilidad de atención
Interes: Interés en el problema
Capa: Capaciad para resolver el problema
Clari: Claridad de información
Tiemp: Tiempo de atención
Soluc: Solución del problema

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico tradicional

1 Aglomerativo: Inicialmente cada observación es un conglomerado.
2 Divisivos: Inicialmente todas las observaciones están en solo conglomerado.
En estos algoritmos se generan sucesiones ordenadas (jerarquias) de conglomerados. Puede ser juntando cluster
pequeños en mas grande o dividiendo grandes clusters en otros mas pequeños. La estructura jerárquica es
representada en forma de un árbol y es llamada Dendograma.
El método jerárquico usa matriz de distancias o de similitudes.

Mg. Samuel Huamaní Flores Análisis conglomerados

OT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo

Consider the following dataset of N = 6 data points
Consideremos el siguiente conjunto de datos de N = 6 puntos de datos

Mg. Samuel Huamaní Flores Análisis conglomerados

OT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo

STEP 1: Make each data point a single-point cluster That forms 6 clusters
PASO 1: Hacer de cada punto de datos un conglomerado de un solo punto ⇒ Eso forma 6 conglomerados

Mg. Samuel Huamaní Flores Análisis conglomerados

NOT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo

STEP
PASO 2: Take
2: Tome los dos the two
puntos closest
de datos data points
más cercanos andenmake
y conviértalos them
un clúster ⇒ Asíone cluster
se forman 5
conglomerados That forms 5 clusters

Mg. Samuel Huamaní Flores Análisis conglomerados

OT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo

STEP 3: Take the two closest clusters and make them one cluster
That forms
PASO 3: Toma los dos clusters más cercanos 4 clusters
y conviértelos en un cluster ⇒ Así se forman 4 conglomerados.

Mg. Samuel Huamaní Flores Análisis conglomerados

OT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo

STEP 4: Repeat STEP 3 until there is only one cluster
PASO 4: Repita el PASO 3 hasta que sólo haya un cluster.

Mg. Samuel Huamaní Flores Análisis conglomerados

OT FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo

STEP 4: Repeat STEP 3 until there is only one cluster
PASO 4: Repita el PASO 3 hasta que sólo haya un cluster.

Mg. Samuel Huamaní Flores Análisis conglomerados

FOR DISTRIBUTION © SUPERDATASCIENCE [Link]
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Aglomerativo

STEP 4: Repeat STEP 3 until there is only one cluster
PASO 4: Repita el PASO 3 hasta que sólo haya un cluster.

FIN

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P1
P4
z
P5

P1 P2 P3 P4 P5 P6

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P1
P4
z
P5

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P1
P4
z
P5

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P1
P4
z
P5

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P1
P4
z
P5

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cómo funcionan los dendogramas?

P1
P4

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cuántos clusters se escogerá?

2 Clústers

P1 2 clusters
P4

Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cuántos clusters se escogerá?

4 Clústers

P1
P4

4 clusters
P6

Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cuántos clusters se escogerá?

6 Clústers

P1
P4

6 clusters

Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: ¿Cuántos clusters se escogerá?

Número óptimo de clusters

Largest distance
2 clusters
P1
P4

Mg. Samuel Huamaní Flores Análisis conglomerados
Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico: Búsqueda de similitud entre los clusters

Vecino más cercano (single) Enlace promedio (average)

Distancia
mínima Distancia promedio
Conglomerado 1 Conglomerado 2 Conglomerado 1 Conglomerado 2

Vecino más lejano (completo) Enlace ward (Ward.D2)

Distancia máxima
Conglomerado 1 Conglomerado 2

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico

Coeficiente de aglomeración
Permite medir la estructura de conglomerados de un conjunto de datos.
Los valores más cercanos a 1 sugieren una estructura de agrupación fuerte.
Cuando el conjunto de datos posee una clara estructura de conglomerados, se espera que las
disimilaridades entre conglomerados sean mucho mas grandes que las disimilaridades dentro de los
conglomerados.

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Medidas de distancia
Conceptos básicos
Clasificación de análisis conglomerado
Referencias

Clustering jerárquico
Ejemplo 2
DATA DEPARTAMENTOS
Es una base con todos los departamentos del Perú, sobre tasas y variables relacionadas a la calidad de vida.
Las variables en estudio son las siguientes.
Departamento: Departamentos
Tinic: Tasa de educación inicial
Tprim: Tasa de educación primaria
Tsec: Tasa de educación secundaria
TDesn: Tasa de desnutrición
Tefic: Tasa de eficiencia educativa
Inter: Internet cada 100 habitantes
TAnalf: Tasa de analfabetismo
Tmort: Tasa de mortalidad
EVida: Esperanza de vida

Mg. Samuel Huamaní Flores Análisis conglomerados

Introducción
Conceptos básicos
Referencias

Referencias

Aldás Manzano, J. & Uriel Jiménez, E. (2017). Análisis multivariante aplicado con R. Ediciones Paraninfo, SA.

Mg. Samuel Huamaní Flores Análisis conglomerados

También podría gustarte

Análisis de Conglomerados: Técnicas y Métodos
Aún no hay calificaciones
Análisis de Conglomerados: Técnicas y Métodos
5 páginas
Análisis de Conglomerados en Estadística
Aún no hay calificaciones
Análisis de Conglomerados en Estadística
55 páginas
Análisis de Conglomerados en Marketing
Aún no hay calificaciones
Análisis de Conglomerados en Marketing
12 páginas
Análisis Cluster: Técnicas y Aplicaciones
Aún no hay calificaciones
Análisis Cluster: Técnicas y Aplicaciones
10 páginas
Análisis de Conglomerados: Métodos y Aplicaciones
Aún no hay calificaciones
Análisis de Conglomerados: Métodos y Aplicaciones
34 páginas
Técnicas de Análisis de Clústeres en Datos
Aún no hay calificaciones
Técnicas de Análisis de Clústeres en Datos
121 páginas
Estadística Aplicada al Mercado
Aún no hay calificaciones
Estadística Aplicada al Mercado
22 páginas
Análisis de Conglomerados Jerárquicos
Aún no hay calificaciones
Análisis de Conglomerados Jerárquicos
33 páginas
Cluster
Aún no hay calificaciones
Cluster
43 páginas
Métodos Jerárquicos en Análisis de Cluster
Aún no hay calificaciones
Métodos Jerárquicos en Análisis de Cluster
36 páginas
Análisis Cluster en SPSS: Guía Práctica
Aún no hay calificaciones
Análisis Cluster en SPSS: Guía Práctica
33 páginas
Analisis Cluster
Aún no hay calificaciones
Analisis Cluster
25 páginas
Análisis de Cluster Con SPSS
Aún no hay calificaciones
Análisis de Cluster Con SPSS
29 páginas
Análisis Cluster: Métodos y Aplicaciones
Aún no hay calificaciones
Análisis Cluster: Métodos y Aplicaciones
54 páginas
Análisis de Conglomerados Básico
Aún no hay calificaciones
Análisis de Conglomerados Básico
4 páginas
Análisis Multivariado en Estadística Aplicada
Aún no hay calificaciones
Análisis Multivariado en Estadística Aplicada
47 páginas
Análisis de Conglomerados
Aún no hay calificaciones
Análisis de Conglomerados
9 páginas
Análisis de Datos y Técnicas de Clustering
Aún no hay calificaciones
Análisis de Datos y Técnicas de Clustering
9 páginas
Clase 8 Análisis de Conglomerados
Aún no hay calificaciones
Clase 8 Análisis de Conglomerados
45 páginas
Introducción Al Análisis Cluster
Aún no hay calificaciones
Introducción Al Análisis Cluster
20 páginas
Análisis de Conglomerados en Marketing
Aún no hay calificaciones
Análisis de Conglomerados en Marketing
7 páginas
Métodos de Clasificación en SPSS
Aún no hay calificaciones
Métodos de Clasificación en SPSS
6 páginas
Técnicas de Clustering en Minería de Datos
Aún no hay calificaciones
Técnicas de Clustering en Minería de Datos
59 páginas
Análisis por Conglomerados en Investigación
Aún no hay calificaciones
Análisis por Conglomerados en Investigación
26 páginas
Análisis Cluster para Marketing
Aún no hay calificaciones
Análisis Cluster para Marketing
16 páginas
Guía Completa de Análisis Cluster SPSS
Aún no hay calificaciones
Guía Completa de Análisis Cluster SPSS
84 páginas
Analisis de Cluster Con SPSS
Aún no hay calificaciones
Analisis de Cluster Con SPSS
29 páginas
Análisis de Agrupación Jerárquica
Aún no hay calificaciones
Análisis de Agrupación Jerárquica
27 páginas
Expo Cluster
Aún no hay calificaciones
Expo Cluster
33 páginas
Análisis de Clúster en Comunas de Santiago
Aún no hay calificaciones
Análisis de Clúster en Comunas de Santiago
13 páginas
Análisis de Conglomerados (Cluster 1)
Aún no hay calificaciones
Análisis de Conglomerados (Cluster 1)
22 páginas
Análisis Multivariado y Métodos de Agrupamiento
Aún no hay calificaciones
Análisis Multivariado y Métodos de Agrupamiento
23 páginas
Analisis Cluster
Aún no hay calificaciones
Analisis Cluster
22 páginas
Análisis de Clúster: Métodos y Aplicaciones
Aún no hay calificaciones
Análisis de Clúster: Métodos y Aplicaciones
33 páginas
Clase 04 - Clustering
Aún no hay calificaciones
Clase 04 - Clustering
68 páginas
Análisis de Clusters y Discriminante
Aún no hay calificaciones
Análisis de Clusters y Discriminante
7 páginas
Análisis de Clúster: Técnicas y Métricas
100% (1)
Análisis de Clúster: Técnicas y Métricas
68 páginas
Métodos de Análisis Clúster en Datos
Aún no hay calificaciones
Métodos de Análisis Clúster en Datos
198 páginas
Minería de Datos de Informes Comerciales
Aún no hay calificaciones
Minería de Datos de Informes Comerciales
20 páginas
Algoritmo K-WARD para Anonimización
Aún no hay calificaciones
Algoritmo K-WARD para Anonimización
8 páginas
Análisis de Conglomerados en Marketing
Aún no hay calificaciones
Análisis de Conglomerados en Marketing
11 páginas
Análisis de Conglomerados en RStudio
Aún no hay calificaciones
Análisis de Conglomerados en RStudio
2 páginas
Análisis Clúster en Campos Petroleros
Aún no hay calificaciones
Análisis Clúster en Campos Petroleros
27 páginas
T4
Aún no hay calificaciones
T4
13 páginas
Análisis Cluster K-Medias en Telecomunicaciones
Aún no hay calificaciones
Análisis Cluster K-Medias en Telecomunicaciones
5 páginas
Análisis de Conglomerados: Conceptos Clave
Aún no hay calificaciones
Análisis de Conglomerados: Conceptos Clave
26 páginas
Introducción al Análisis Cluster
Aún no hay calificaciones
Introducción al Análisis Cluster
18 páginas
Conglomerados
Aún no hay calificaciones
Conglomerados
4 páginas
Análisis de Conglomerados en Microeconometría
Aún no hay calificaciones
Análisis de Conglomerados en Microeconometría
13 páginas
Análisis Cluster en Mercados
Aún no hay calificaciones
Análisis Cluster en Mercados
4 páginas
Guía Completa del Análisis Cluster
Aún no hay calificaciones
Guía Completa del Análisis Cluster
20 páginas
Análisis de Conglomerados PDF
100% (1)
Análisis de Conglomerados PDF
26 páginas
Cluster 1
Aún no hay calificaciones
Cluster 1
17 páginas
SESION 5 Cluster
Aún no hay calificaciones
SESION 5 Cluster
46 páginas
K-Means: Clustering y Ejemplos Numéricos
Aún no hay calificaciones
K-Means: Clustering y Ejemplos Numéricos
24 páginas
Analisis Por Conglomerados
Aún no hay calificaciones
Analisis Por Conglomerados
19 páginas
Carreras de Construcción en INACAP
Aún no hay calificaciones
Carreras de Construcción en INACAP
4 páginas
Funcionamiento de la Bolsa de Valores
Aún no hay calificaciones
Funcionamiento de la Bolsa de Valores
24 páginas
Cálculos de Nómina y Finiquitos Laborales
Aún no hay calificaciones
Cálculos de Nómina y Finiquitos Laborales
1 página
100 Preguntas SISTEMA ENDOCRINO Pregunta Respuesta
Aún no hay calificaciones
100 Preguntas SISTEMA ENDOCRINO Pregunta Respuesta
5 páginas
Costos Logísticos en Distribución Internacional
Aún no hay calificaciones
Costos Logísticos en Distribución Internacional
26 páginas
Propuesta de Fijación para Impermeabilización
Aún no hay calificaciones
Propuesta de Fijación para Impermeabilización
3 páginas
Fundamentos de Logística Administrativa
Aún no hay calificaciones
Fundamentos de Logística Administrativa
3 páginas
Estrategia de Marketing de TransSprech
Aún no hay calificaciones
Estrategia de Marketing de TransSprech
2 páginas
Búsqueda y Rescate en Estructuras Colapsadas Nivel Liviano USAID
100% (1)
Búsqueda y Rescate en Estructuras Colapsadas Nivel Liviano USAID
60 páginas
Tarea 6.1
100% (1)
Tarea 6.1
6 páginas
Contabilidad Básica: Partida Doble y Esf.
Aún no hay calificaciones
Contabilidad Básica: Partida Doble y Esf.
65 páginas
Día 2 - Hands-On Watson Assistant
Aún no hay calificaciones
Día 2 - Hands-On Watson Assistant
58 páginas
Confesión de Accra: Justicia y Fe Reformada
Aún no hay calificaciones
Confesión de Accra: Justicia y Fe Reformada
8 páginas
Análisis de Cortantes y Momentos en Estructuras
Aún no hay calificaciones
Análisis de Cortantes y Momentos en Estructuras
1 página
Jurisprudencia y su Obligatoria Observancia
Aún no hay calificaciones
Jurisprudencia y su Obligatoria Observancia
2 páginas
Licencia de Operación AMP JD-027
Aún no hay calificaciones
Licencia de Operación AMP JD-027
16 páginas
Silabo de Comunicación Interpersonal
Aún no hay calificaciones
Silabo de Comunicación Interpersonal
3 páginas
Descripción de Los Circuitos Hidráulicos
Aún no hay calificaciones
Descripción de Los Circuitos Hidráulicos
34 páginas
Planos de Oficinas Administrativas Camiri
Aún no hay calificaciones
Planos de Oficinas Administrativas Camiri
1 página
Manual de PC Simu
0% (1)
Manual de PC Simu
14 páginas
Procesos Jurídicos Empresariales
Aún no hay calificaciones
Procesos Jurídicos Empresariales
6 páginas
Curso SAP ABAP 4: Iniciación y Oportunidades
Aún no hay calificaciones
Curso SAP ABAP 4: Iniciación y Oportunidades
6 páginas
Poli Traumatism o
Aún no hay calificaciones
Poli Traumatism o
54 páginas
Sikaguard 62
Aún no hay calificaciones
Sikaguard 62
5 páginas
Infografía Proceso Haber-Bosch
100% (1)
Infografía Proceso Haber-Bosch
2 páginas
Modelo Integral de Gestión de Mantenimiento
Aún no hay calificaciones
Modelo Integral de Gestión de Mantenimiento
74 páginas
Taller de Diagramas de Gantt en Proyectos
Aún no hay calificaciones
Taller de Diagramas de Gantt en Proyectos
8 páginas
Viga Segunda Expo
Aún no hay calificaciones
Viga Segunda Expo
16 páginas
Ejemplo de Informe
Aún no hay calificaciones
Ejemplo de Informe
9 páginas
Copia de Bases Conceptuales de Anatomía Actividad 2
Aún no hay calificaciones
Copia de Bases Conceptuales de Anatomía Actividad 2
21 páginas